Gerücht AMD trennt bei Zen2 Cores von Uncore

User-News

Von E555user

Hinweis: Diese "User-News" wurde nicht von der Planet 3DNow! Redaktion veröffentlicht, sondern vom oben genannten Leser, der persönlich für den hier veröffentlichten Inhalt haftet.
Der Youtuber AdoredTV spekuliert in seinem "EPYC Masterplan P.2" über eine künftige Trennung von Multicore Dies und den übrigen SoC bzw. Uncore Einheiten bei den künftigen Zen CPUs. Dabei geht er sogar so weit, dass der Level 3 Cache ebenso in separate Dies ausgelagert werden könnte.
Dabei könnten 4 Stück der neuen 16 Core Dies mit einem Uncore Die zu einer 64 Core CPU als MCM zusammengestellt werden.

Entsprechend den zuletzt aufgetauchten Folien würden demnach künftige Core-Dies nur noch als CCX produziert, also das, was an den CCM angebunden ist, ggf. sogar ohne den Level 3 Cache. Die UMC müssten wohl zumindest auch in den CCX Core Dies untergebracht sein, damit bei MCMs die Speicheranbindung skalieren kann.
Im Uncore Die mit dem IO Complex könnten dafür alle Elemente zusammen gefasst werden, die im Infinity Fabric eine CAKE Schnittstelle nutzen. Für verschiedene Produktvarianten müssten dann die jeweils gleichen Core Dies mit einem passenden Uncore Die verbunden werden um SoCs für Mobile, Desktop und Mullti-Socket Systeme zu ermöglichen.

AMD-ISSCC-Zeppelin-Zen-EPYC-Threadripper-Ryzen_5-1480x823.jpg

Zumindest spricht die steigende MHz Zahl bei DDR-SDRAM (u.a. DDR5) und sicherlich auch die des Ininity Fabric in 7nm für diese These. Der Interconnect und RAM werden wesentlich schneller an Takt zulegen, als es bei einzelnen Cores noch möglich ist.

Auf jeden Fall ein schönes Beispiel für Out of the Box Thinking, das die Flexibilität des als so wichtig erachteten Infinity Fabric in Betracht zieht.
 
Zuletzt bearbeitet:
Naja, ich persönlich würde eine weitere Aufsplittung für umständlich halten. Vorteil am L3 wäre halt, dass ein einzelner Thread den gesamten Inhalt in gleicher Latenz und Speed ansprechen könnte. Nachteil aber, dass die Verbindung zum eigentlichen Kern latenzbehafteter wird. Eher würde ich mir eine eigene Taktdomain für den IF wünschen, auch wenn es kaum Sinn macht.
 
Das ganze hatten wir doch mal bei IBM Power Designs und ähnlichen Highest End Server Designs.
 
Ein CPU Die mit einem CCX von 8 Cores am gleichen L3 Cache würde schon die Eigenheiten des getrennten L3 für typischen Ryzen Desktop beseitigen. Das hätte etwas für sich.

Ein CCX mit 16 Kernen wäre wohl zu gross. Eine CPU mit einem 8Core CCX und L3 und eine zweite Variante mit 2x 8Core CCX und L3 würde wohl noch Sinn machen. Dazu ein APU Design mit weniger Cores und GPU, dann wäre man in 2019 bei den Laptops entweder bei APUs oder bei 8Cores mit dGPU.

Wenn man die Latenzen zu einem getrennten On Package L3 jenseits eines CCX in den Griff bekäme z.B. durch grössere L1 und L2, dann wäre allerdings alles sehr viel flexibler. Aber innerhalb des CCX müssten die Daten dennoch geteilt werden können. So viele Cores bzw. L2 per Fabric einzeln an ein L3 Modul anzubinden wäre wohl kaum sinnvoll machbar.
 
AMD hat erst mit der Übernahme von SeaMicro in 2012 die Grundlagen für Infinity Fabric an Board genommen.

Bis zur Zen-Entwicklung war die Strategie alles in einem SoC zu integrieren, die Präsentationen ließen daran keinen Zweifel, dass das integrierte SoC in einem Die waren.
Die Folien sind aus 2007 und 2015, irgendwo dazwischen wird man insgeheim wohl an der neuen Infinity Fabric Strategie gebastelt haben.

Bislang habe ich den Eindruck, dass HSA und heterogenous cueueing mit Zen aufgegeben worden sind oder zumindest noch nicht auf Ininity Fabric Basis möglich sind und wenn überhaupt bis Vega20 oder Navi in APUs warten müssen. Die Folien von AMD zu den APUs aus 2016 zeigen auf, dass auch die ersten 7nm APUs kein HSA mehr haben werden, genauso wie die aktuellen Zen-APUs.

Mit den weniger integrierten SoCs und dem MCM Ansatz bleibt das "perfekte" HSA-Konzept wohl erst einmal auf der Strecke und darf höchstens noch auf ein Revival hoffen. Mir hätte ein GPU-Ersatz der halbgaren FPU-Boliden allerdings schon gefallen.
 
Zuletzt bearbeitet:
Vorteil am L3 wäre halt, dass ein einzelner Thread den gesamten Inhalt in gleicher Latenz und Speed ansprechen könnte.

Ja, mit höherer Latenz und geringerem Speed als wäre der Cache auf dem Die.
Sowas blödes leistet sich nichtmal Intel.
Beim Ryzen ist die Latenz zum L3-Cache auf dem entfernten CCX schon ca. 550 Takte (bei einem 1800X, Takte sind hier die nativen Basistakt-Takte via RDTSC).
Das wird sicher nicht besser wenn die die L3-Caches auf separate Dies legen.
 
Zuletzt bearbeitet:
Zurück
Oben Unten