AMD pr채sentiert die Zen-Architektur

Artikel-Index:

Schon lan짯ge hat es Tra짯di짯ti짯on, dass AMD par짯al짯lel zur statt짯fin짯den짯den Kon짯fe짯renz des Mit짯be짯wer짯bers Intel die Redak짯teu짯re in eige짯ne Hotel짯hin짯ter짯zim짯mer ent짯f체hrt, um dort eige짯ne Wer짯ke zu zei짯gen. Die짯ses Jahr konn짯te AMDs CEO Lisa Su mit einem beson짯de짯ren Bon짯bon auf짯war짯ten: Erst짯mals wur짯den lauf짯f채짯hi짯ge Sys짯te짯me gezeigt, die auf AMDs nagel짯neu짯er Zen-Mikro짯ar짯chi짯tek짯tur auf짯bau짯en. Anhand von Com짯pi짯ler짯infor짯ma짯tio짯nen konn짯ten wir bereits letz짯ten Okto짯ber das Grund짯de짯sign ver짯철f짯fent짯li짯chen:

Architekturskizze nach AMDs Compilercode. Fehldarstellungen aufgrund von Copy-Paste-Fehlern im Code sind m철glich!
Archi짯tek짯tur짯skiz짯ze nach AMDs Com짯pi짯ler짯code, Stand Okto짯ber 2015.

Dies erwies sich im Nach짯hin짯ein als gute Inter짯pre짯ta짯ti짯on der Infor짯ma짯tio짯nen aus dem damals neu짯en Code짯seg짯ment, wenn man es mit AMDs offi짯zi짯el짯lem Archi짯tek짯tur짯sche짯ma vergleicht:

Je vier Inte짯ger- und FP-Ein짯hei짯ten mit jeweils zwei ADD/짯MUL-Units sowie zwei AGUs sind also gesi짯chert, womit es sich bei Zen um ein rela짯tiv brei짯tes Design mit vie짯len Rechen짯ein짯hei짯ten han짯delt sicher짯lich per짯fekt f체r den SMT-Einsatz.

Wir gehen im Fol짯gen짯den kurz auf die Unter짯schie짯de im Ver짯gleich zu Okto짯ber ein:

- Zual짯ler짯erst f채llt der gr철짯횩e짯re L1-Befehls짯cache auf. Sind sich AMD und Intel bei der Daten짯cache짯gr철짯횩e noch einig und ver짯bau짯en 32 kB 8멹ach asso짯zia짯ti짯ven L1D-Cache, hat sich AMD beim Instruk짯ti짯ons짯cache f체r 64 kB ent짯schie짯den, wie es fr체짯her auch bei den K8- und K10-CPUs 체blich war. Aller짯dings wuchs die Asso짯zia짯ti짯vi짯t채t von 2멹ach auf 4멹ach an, wur짯de also besser.

- Bei den Inte짯ger짯pipe짯lines zeich짯net AMD jeweils eige짯ne Sche짯du짯ler pro ALU/AGU ein, dies erin짯nert eben짯falls etwas an die K8- und K10-Vor짯l채u짯fer, ver짯rin짯gert aber stark die maxi짯ma짯le Tie짯fe der Out-of-Order-Aus짯f체h짯rung. Aller짯dings ist zu ver짯mu짯ten, dass AMD dank nomi짯nel짯ler 14-nm-Pro짯zess짯tech짯nik jeden ein짯zel짯nen Sche짯du짯ler rela짯tiv gro횩짯z체짯gig dimen짯sio짯nie짯ren kann, so dass sich etwa짯ige Nach짯tei짯le in Gren짯zen hal짯ten k철nn짯ten. Die Anga짯be von 1,75-facher Gr철짯횩e im Ver짯gleich zu Excava짯tor hilft hier lei짯der nicht weiter.

- Wich짯tigs짯te Neue짯rung d체rf짯te der von Intel mit San짯dy-Bridge ein짯ge짯f체hr짯te 쨉Op-Cache sein. Laut dem Sche짯ma scheint die Funk짯tio짯na짯li짯t채t 채hn짯lich wie bei Intel zu sein, wo fer짯tig deko짯dier짯te Befeh짯le direkt an die Aus짯f체h짯rungs짯ein짯hei짯ten geschickt wer짯den k철n짯nen. Maxi짯mal k철n짯nen sechs 쨉Ops auf die Rei짯se durch die Rechen짯wer짯ke geschickt wer짯den, d.h. genau짯so vie짯le wie bei Intels aktu짯el짯ler Sky짯la짯ke-Archi짯tek짯tur. Intel erm철g짯lich짯te bis zur Has짯well-Archi짯tek짯tur nur vier 쨉Ops.

- Wei짯te짯re Punk짯te wie z.B. eine Stack-Engi짯ne run짯den die Ein짯zel짯hei짯ten ab, dies wur짯de zuerst im Blog von Mat짯thi짯as Wald짯hau짯er erw채hnt.

Abschlie짯횩end noch eine 횥ber짯sicht zur Cache-Hier짯ar짯chie, wel짯che eben짯falls den Erwar짯tun짯gen entspricht:

Was ist nun das Resul짯tat aller Opti짯mie짯run짯gen? Eine zu Intels Broad짯well-Archi짯tek짯tur ver짯gleich짯ba짯re Pro-Takt-Leis짯tung zumin짯dest bei Ver짯wen짯dung des Pro짯gramms Blender.
Das ist sicher짯lich mehr als man erwar짯ten durf짯te, auch wenn nicht genau klar ist, wel짯che Befeh짯le Blen짯der ein짯setzt und wel짯che nicht. Ver짯mut짯lich wer짯den kei짯ne 256-Bit-Befeh짯le ver짯wen짯det, dort h채t짯te Intel n채m짯lich noch einen star짯ken Vor짯teil. Solan짯ge AMD die neu짯en Zen-Chips aber preis짯lich attrak짯tiv gestal짯tet, wer짯den die Pro짯duk짯te sicher짯lich Zuspruch erfah짯ren, schlie횩짯lich ist AVX256-Code nur sel짯ten anzu짯tref짯fen und als Ersatz ste짯hen zwei statt einer ADD/짯MUL-Ein짯heit zur Verf체gung.

Vor der Pr채짯sen짯ta짯ti짯on ist bekannt짯lich nach der Pr채짯sen짯ta짯ti짯on und so wag짯te AMD auch schon einen Blick in die Zeit nach der ers짯ten Zen-Ite짯ra짯ti짯on, f체r die wei짯te짯re Stei짯ge짯run짯gen ver짯spro짯chen wurden:

Wei짯te짯re Details zur Zen-Archi짯tek짯tur wer짯den n채chs짯ten Diens짯tag auf der Hot짯chips-Kon짯fe짯renz erwar짯tet, wor짯체ber wir eben짯falls berich짯ten werden.