Analyse der vermuteten Zen-Architektur

Artikel-Index:

Vergleich mit Intels Skylake

Zu Intels Sky­la­ke gab es vor Kur­zem erst neue Daten samt einem Archi­tek­tur­sche­ma, das wir ger­ne wiedergeben:

Intels Skylake-Architektur
Intels Sky­la­ke-Archi­tek­tur

Neben der fort­be­stehen­den Schmal­heit des Design, das von Intel in den letz­ten Jah­ren schon nach und nach ver­brei­tert wur­de – anhand der Port­num­mern kann man z.B. erken­nen, dass Port 5 (Pen­ryn), 6 (Has­well) und 7 (Sky­la­ke) erst nach­träg­lich ins Design auf­ge­nom­men wur­den – fal­len v.a. eini­ge Ver­schlech­te­run­gen auf. So ver­schlech­ter­ten sich L2- und L3-Laten­zen, außer­dem redu­zier­te Intel die L2-Asso­zia­ti­vi­tät von acht­fach auf vier­fach, wodurch die Tref­fer­ra­te sank. Das über­rascht schon, denn bis­her ging es immer in die ande­re Rich­tung. Intel gab zur L2-Asso­zia­ti­vi­tät an, dies aus Ener­gie­spar­grün­den geän­dert zu haben. Trotz der ange­spro­che­nen Nach­tei­le steigt die Leis­tung gegen­über der Vor­gän­ger­ge­ne­ra­ti­on wei­ter an, denn natür­lich gab es auch Ver­bes­se­run­gen, vor­nehm­lich wur­den die inter­nen Puf­fer vergrößert:

Skylakes Verbesserungen der internen Puffer
Sky­lakes Ver­bes­se­run­gen der inter­nen Puffer

Wie man hier sieht, wur­de dann doch nicht gekle­ckert, son­dern wei­ter­hin geklotzt. Ins­be­son­de­re die Ver­grö­ße­rung der Allo­ca­ti­on-War­te­schlan­ge fällt auf. Hat­te San­dy Bridge noch 28 Ein­trä­ge pro Thread und Has­well eine gleich gro­ße War­te­schlan­ge für alle zwei Threads, besitzt Sky­la­ke nun wie­der getrenn­te Ein­trä­ge pro Thread und zwar gleich 64. Ins­ge­samt wur­de die Kapa­zi­tät damit mehr als ver­dop­pelt. Befüllt wer­den die­se War­te­schlan­gen vom Front­end, wobei von Intels µOp-Cache nun 6 Ope­ra­tio­nen pro Takt kom­men kön­nen. Eben­falls über­pro­por­tio­nal bedacht wur­den die Sche­du­ler-Ein­trä­ge, die um mehr als die Hälf­te von 60 auf 97 zuleg­ten. Es zeigt sich also, dass man am Cache­sys­tem durch­aus spa­ren kann — wenn man die Daten­zu­grif­fe schon intern durch aus­rei­chend dimen­sio­nier­te War­te­schlan­gen abfe­dern kann. Der Grund, aus dem man nicht von Beginn an so gro­ße Puf­fer vor­sah, ist natür­lich der Her­stel­lungs­pro­zess. Neue, klei­ne­re Struk­tu­ren ver­grö­ßern das Tran­sis­to­ren­bud­get der CPU-Archi­tek­ten und gro­ße Puf­fer sind dann eine gute Anlage.

Ent­fernt erin­nert die Vor­ge­hens­wei­se an Excava­tors Cache­de­sign. Dort ermög­lich­te der ver­grö­ßer­te L1-Cache einen klei­ne­ren L2-Cache ohne Performance-Einbußen.