AMD präsentiert die Zen-Architektur

Artikel-Index:

Schon lan­ge hat es Tra­di­ti­on, dass AMD par­al­lel zur statt­fin­den­den Kon­fe­renz des Mit­be­wer­bers Intel die Redak­teu­re in eige­ne Hotel­hin­ter­zim­mer ent­führt, um dort eige­ne Wer­ke zu zei­gen. Die­ses Jahr konn­te AMDs CEO Lisa Su mit einem beson­de­ren Bon­bon auf­war­ten: Erst­mals wur­den lauf­fä­hi­ge Sys­te­me gezeigt, die auf AMDs nagel­neu­er Zen-Mikro­ar­chi­tek­tur auf­bau­en. Anhand von Com­pi­ler­infor­ma­tio­nen konn­ten wir bereits letz­ten Okto­ber das Grund­de­sign ver­öf­fent­li­chen:

Architekturskizze nach AMDs Compilercode. Fehldarstellungen aufgrund von Copy-Paste-Fehlern im Code sind möglich!
Archi­tek­tur­skiz­ze nach AMDs Com­pi­ler­code, Stand Okto­ber 2015.

Dies erwies sich im Nach­hin­ein als gute Inter­pre­ta­ti­on der Infor­ma­tio­nen aus dem damals neu­en Code­seg­ment, wenn man es mit AMDs offi­zi­el­lem Archi­tek­tur­sche­ma vergleicht:

Je vier Inte­ger- und FP-Ein­hei­ten mit jeweils zwei ADD/­MUL-Units sowie zwei AGUs sind also gesi­chert, womit es sich bei Zen um ein rela­tiv brei­tes Design mit vie­len Rechen­ein­hei­ten han­delt – sicher­lich per­fekt für den SMT-Einsatz.

Wir gehen im Fol­gen­den kurz auf die Unter­schie­de im Ver­gleich zu Okto­ber ein:

- Zual­ler­erst fällt der grö­ße­re L1-Befehls­cache auf. Sind sich AMD und Intel bei der Daten­cache­grö­ße noch einig und ver­bau­en 32 kB 8‑fach asso­zia­ti­ven L1D-Cache, hat sich AMD beim Instruk­ti­ons­cache für 64 kB ent­schie­den, wie es frü­her auch bei den K8- und K10-CPUs üblich war. Aller­dings wuchs die Asso­zia­ti­vi­tät von 2‑fach auf 4‑fach an, wur­de also besser.

- Bei den Inte­ger­pipe­lines zeich­net AMD jeweils eige­ne Sche­du­ler pro ALU/AGU ein, dies erin­nert eben­falls etwas an die K8- und K10-Vor­läu­fer, ver­rin­gert aber stark die maxi­ma­le Tie­fe der Out-of-Order-Aus­füh­rung. Aller­dings ist zu ver­mu­ten, dass AMD dank nomi­nel­ler 14-nm-Pro­zess­tech­nik jeden ein­zel­nen Sche­du­ler rela­tiv groß­zü­gig dimen­sio­nie­ren kann, so dass sich etwa­ige Nach­tei­le in Gren­zen hal­ten könn­ten. Die Anga­be von 1,75-facher Grö­ße im Ver­gleich zu Excava­tor hilft hier lei­der nicht weiter.

- Wich­tigs­te Neue­rung dürf­te der von Intel mit San­dy-Bridge ein­ge­führ­te µOp-Cache sein. Laut dem Sche­ma scheint die Funk­tio­na­li­tät ähn­lich wie bei Intel zu sein, wo fer­tig deko­dier­te Befeh­le direkt an die Aus­füh­rungs­ein­hei­ten geschickt wer­den kön­nen. Maxi­mal kön­nen sechs µOps auf die Rei­se durch die Rechen­wer­ke geschickt wer­den, d.h. genau­so vie­le wie bei Intels aktu­el­ler Sky­la­ke-Archi­tek­tur. Intel ermög­lich­te bis zur Has­well-Archi­tek­tur nur vier µOps.

- Wei­te­re Punk­te wie z.B. eine Stack-Engi­ne run­den die Ein­zel­hei­ten ab, dies wur­de zuerst im Blog von Mat­thi­as Wald­hau­er erwähnt.

Abschlie­ßend noch eine Über­sicht zur Cache-Hier­ar­chie, wel­che eben­falls den Erwar­tun­gen entspricht:

Was ist nun das Resul­tat aller Opti­mie­run­gen? Eine zu Intels Broad­well-Archi­tek­tur ver­gleich­ba­re Pro-Takt-Leis­tung — zumin­dest bei Ver­wen­dung des Pro­gramms Blender.
Das ist sicher­lich mehr als man erwar­ten durf­te, auch wenn nicht genau klar ist, wel­che Befeh­le Blen­der ein­setzt und wel­che nicht. Ver­mut­lich wer­den kei­ne 256-Bit-Befeh­le ver­wen­det, dort hät­te Intel näm­lich noch einen star­ken Vor­teil. Solan­ge AMD die neu­en Zen-Chips aber preis­lich attrak­tiv gestal­tet, wer­den die Pro­duk­te sicher­lich Zuspruch erfah­ren, schließ­lich ist AVX256-Code nur sel­ten anzu­tref­fen und als Ersatz ste­hen zwei statt einer ADD/­MUL-Ein­heit zur Verfügung.

Vor der Prä­sen­ta­ti­on ist bekannt­lich nach der Prä­sen­ta­ti­on und so wag­te AMD auch schon einen Blick in die Zeit nach der ers­ten Zen-Ite­ra­ti­on, für die wei­te­re Stei­ge­run­gen ver­spro­chen wurden:

Wei­te­re Details zur Zen-Archi­tek­tur wer­den nächs­ten Diens­tag auf der Hot­chips-Kon­fe­renz erwar­tet, wor­über wir eben­falls berich­ten werden.