Details und Analyse der Zen-Architektur nach der Hot-Chips-Konferenz

Artikel-Index:

Speichersubsystem im Detail

Zual짯ler짯erst sieht man auf AMDs 횥ber짯sicht auf der vor짯her짯ge짯hen짯den Sei짯te, dass wie짯der짯um ver짯brei짯tert und ver짯bes짯sert wurde:

    • Wri짯te-Back-L1-Cache
    • schnel짯le짯rer L2-Cache
    • schnel짯le짯rer L3-Cache
    • schnel짯le짯res Laden in die FPU: 7 statt 9 Zyklen
    • bes짯se짯re L1- and L2-Daten-Prefetcher
    • fast dop짯pel짯te L1- und L2-Bandbreite
    • fast ver짯f체nf짯fach짯te L3-Gesamtbandbreite

Zun채chst springt ins Auge, dass AMD zu einem L1-Cache짯de짯sign zur체ck짯ge짯kehrt ist, wie es fr체짯her 체blich war: Berech짯ne짯te Daten wer짯den nur in den L1-Cache zur체ck짯ge짯schrie짯ben (wri짯te back), ohne die h철he짯ren Cache-Ebe짯nen zu stra짯pa짯zie짯ren. Grund hier짯f체r war Mike Clark zufol짯ge vor allem der Strom짯ver짯brauch. Zwar l채sst ein Wri짯te-Through-Cache wie bei Bull짯do짯zer h철he짯re Takt짯ra짯ten zu, aller짯dings muss man die Daten auch direkt in den L2-Cache schrei짯ben, was ener짯gie짯auf짯w채n짯dig ist. Will man also kei짯ne CPUs mit einer TDP um 220 Watt mehr kon짯stru짯ie짯ren, ist Wri짯te-Back die ein짯zig sinn짯vol짯le Variante.

Die L1-Caches sind 32 KiB (Daten) sowie 64 KiB (Instruk짯tio짯nen) gro횩 und wer짯den von 512 KiB L2 sowie 8 MiB L3 unter짯st체tzt. Dies war schon seit letz짯ter Woche bekannt:

Inter짯es짯sant wird es nun bei den Details. Die Latenz die짯ser Wri짯te-Back-Caches, wie einer als L1-Daten짯cache dient, betr채gt gem채횩 AMD vier Tak짯te. Bzgl. der L2- wie L3-Cache짯la짯ten짯zen bleibt AMD uns lei짯der genaue짯re Anga짯ben schul짯dig und gibt nur die unschar짯fe Infor짯ma짯ti짯on preis, dass die짯se 쐓chnel짯ler w채ren.

Pi mal Dau짯men und mit der auf짯ge짯setz짯ten dun짯kel짯gr체짯nen Bril짯le opti짯mis짯tisch gesch채tzt, d체rf짯ten sich die Laten짯zen bei weni짯ger als 15 Tak짯ten (L2) und etwas 체ber 30 Tak짯ten (L3) bewe짯gen. Letz짯te짯rer wird wie Bull짯do짯zer in einer geson짯der짯ten Takt짯do짯m채짯ne betrie짯ben, sodass die Laten짯zen, die in Kern짯tak짯ten gerech짯net wer짯den, ent짯spre짯chend schlech짯ter aus짯fal짯len k철n짯nen. Dies war bei Bull짯do짯zer 채hn짯lich und selbst Intel wen짯det die glei짯che Tech짯nik seit der Sky짯la짯ke-Archi짯tek짯tur an. Des짯sen L3-Laten짯zen betra짯gen im schlimms짯ten Fall sogar 체ber 40 Tak짯te. Da AMD jedoch das simp짯le짯re Cache-Design (kein Ring짯bus) ver짯wen짯det, soll짯te am Ende ein klei짯ner Vor짯teil f체r AMD 체brig bleiben.

Die Zugriffs짯zei짯ten von Zens L3-Caches unter짯schei짯den sich Clark zufol짯ge je nach Cache짯seg짯ment und anfra짯gen짯dem Kern, da der L3 aus acht Tei짯len zu je einem MiB auf짯ge짯baut ist. Nahe gele짯ge짯ne L3-Seg짯men짯te eines Kerns lie짯fern die Daten natur짯ge짯m채횩 etwas schnel짯ler als wei짯ter ent짯fern짯te. Der Unter짯schied d체rf짯te hier짯bei nur weni짯ge Tak짯te betra짯gen. Den Auf짯bau eines Zen-Quad-Moduls kann man auf dem n채chs짯ten Bild begutachten:

Man erkennt deut짯lich die acht 1멝e짯ga짯byte-Bl철짯cke des L3, die jeweils von 512 KiB L2 pro Kern flan짯kiert werden.

AMD wird die짯sen Quad-Modul-Kern짯bau짯plan f체r alle im Moment ange짯k체n짯dig짯ten Chips bei짯be짯hal짯ten. Das bedeu짯tet also, dass ers짯tens die 8멚ern-Ver짯si짯on 쏶um짯mit Ridge 체ber 2x 8 MiB = 16 L3-Cache ver짯f체짯gen wird und zwei짯tens auch die Zen-APUs mit GPU-Teil und nur einem Zen-Quad-Modul erst짯mals eben짯falls 체ber einen L3-Cache ver짯f체짯gen werden.
Ent짯ge짯gen anders짯lau짯ten짯der Ger체ch짯te setzt AMD beim Cache-Auf짯bau wei짯ter짯hin auf exklu짯si짯ve L3-Caches nach der 쏺ic짯tim Stra짯tegy. Das hei횩t, dass Daten in der Regel ent짯we짯der direkt in den L1- oder in den L2-Cache gela짯den wer짯den: Fal짯len Daten aus dem L2 her짯aus, lan짯den die짯se 쏰pfer (vic짯tims) im L3. Bei Intel-Designs lie짯gen L2-Daten dage짯gen auto짯ma짯tisch immer als Kopie auch im L3, was einer짯seits die effek짯ti짯ve L3-Cache짯gr철짯횩e und damit indi짯rekt auch die L2-Gr철짯횩e begrenzt, ande짯rer짯seits die Kern-zu-Kern-Kom짯mu짯ni짯ka짯ti짯on vereinfacht.

Cache-Orga짯ni짯sa짯ti짯on und 멇uf짯bau gehen somit Hand in Hand. Weil AMD kein inklu짯si짯ves Cache짯de짯sign w채hl짯te, ein Daten짯aus짯tausch 체ber den L3 also ohe짯hin fast unm철g짯lich ist, ben철짯tigt man auch kei짯nen ein짯zel짯nen gemein짯sa짯men L3-Cache, son짯dern kann sich mit simp짯len 8멝iB-Modu짯len begn체짯gen. Ins짯be짯son짯de짯re bei Ser짯ver짯chips mit vie짯len Ker짯nen und noch mehr Cache, wird die Cache짯or짯ga짯ni짯sa짯ti짯on zum Pro짯blem. AMD setzt bei den Ser짯ver짯chips aber auch auf einen bew채hr짯ten MCM-Ansatz, mit dem von vor짯ne her짯ein kei짯ne gemein짯sa짯men L3-Caches m철g짯lich w채ren. Somit ist die Design짯ent짯schei짯dung ins짯ge짯samt nach짯voll짯zieh짯bar und schl체s짯sig. Als Spei짯cher짯mo짯dell fin짯det die bew채hr짯te und schon von K8/K10 bekann짯te MOE짯SI-Stra짯te짯gie Anwendung.