Analyse der vermuteten Zen-Architektur - Vergleich mit Intels Skylake

Artikel-Index:

Zu Intels Skylake gab es vor Kurzem erst neue Daten samt einem Architekturschema, das wir gerne wiedergeben:

Neben der fortbestehenden Schmalheit des Design, das von Intel in den letzten Jahren schon nach und nach verbreitert wurde – anhand der Portnummern kann man z.B. erkennen, dass Port 5 (Penryn), 6 (Haswell) und 7 (Skylake) erst nachträglich ins Design aufgenommen wurden – fallen v.a. einige Verschlechterungen auf. So verschlechterten sich L2- und L3-Latenzen, außerdem reduzierte Intel die L2-Assoziativität von achtfach auf vierfach, wodurch die Trefferrate sank. Das überrascht schon, denn bisher ging es immer in die andere Richtung. Intel gab zur L2-Assoziativität an, dies aus Energiespargründen geändert zu haben. Trotz der angesprochenen Nachteile steigt die Leistung gegenüber der Vorgängergeneration weiter an, denn natürlich gab es auch Verbesserungen, vornehmlich wurden die internen Puffer vergrößert:

Skylakes Verbesserungen der internen Puffer

Wie man hier sieht, wurde dann doch nicht gekleckert, sondern weiterhin geklotzt. Insbesondere die Vergrößerung der Allocation-Warteschlange fällt auf. Hatte Sandy Bridge noch 28 Einträge pro Thread und Haswell eine gleich große Warteschlange für alle zwei Threads, besitzt Skylake nun wieder getrennte Einträge pro Thread und zwar gleich 64. Insgesamt wurde die Kapazität damit mehr als verdoppelt. Befüllt werden diese Warteschlangen vom Frontend, wobei von Intels µOp-Cache nun 6 Operationen pro Takt kommen können. Ebenfalls überproportional bedacht wurden die Scheduler-Einträge, die um mehr als die Hälfte von 60 auf 97 zulegten. Es zeigt sich also, dass man am Cachesystem durchaus sparen kann — wenn man die Datenzugriffe schon intern durch ausreichend dimensionierte Warteschlangen abfedern kann. Der Grund, aus dem man nicht von Beginn an so große Puffer vorsah, ist natürlich der Herstellungsprozess. Neue, kleinere Strukturen vergrößern das Transistorenbudget der CPU-Architekten und große Puffer sind dann eine gute Anlage.

Entfernt erinnert die Vorgehensweise an Excavators Cachedesign. Dort ermöglichte der vergrößerte L1-Cache einen kleineren L2-Cache ohne Performance-Einbußen.