AMD EPYC Rome Server CPUs - Zen 2 in 7nm TSMC

Complicated

Grand Admiral Special
Mitglied seit
08.10.2010
Beiträge
4.949
Renomée
441
Es wird Zeit für einen Spekulationsthread für AMDs EPYC Version 2 mit dem Codenamen "Rome". Er wird in 7nm bei TSMC gefertigt und soll 2019 den Markt erreichen.
Mehr Details und Links sind der letzten News um geleakte Benchmarls von pipin zu entnehmen:
Angeblicher Benchmark eines AMD EPYC “Rome” 7nm-Prozessors
“Rome” ist der Codename der in 7-nm-Technik gefertigten Serverprozessoren mit Zen-2-Kernen, bei denen – gegenüber den aktuellen AMD Epyc-Serverprozessoren (“Naples”) mit bis zu 32 Kernen, 64 Threads und 64 MiB L3-Cache – die Anzahl der Kerne auf 64 (128 Threads je CPU) verdoppelt sowie eine Vervierfachung der L3-Cachegröße auf nicht weniger als 256 MiB umgesetzt werden soll. Zudem könnte statt Achtkanal-DDR4-2667-RAM dann Achtkanal-DDR4-3200 unterstützt werden. In Sachen PCIe-Lanes bleibt es wohl bei 128 Stück, dann allerdings nicht mehr nach Spezifikation 3.0, sondern 4.0 mit verdoppelter Transferrate.
 
Semiaccurate geht davon aus, daß I/O in eine eigene Die wandern wird.
64C Rome soll somit aus 9 Dice bestehen.

hthtrhhthfth.jpg
 
Das Bild ist von irgendeinem Chinesen von Chiphell, und das macht so absolut keinen Sinn.
 
Wie sollte man 8 Dice sonst mit einer I/O-Die verbinden?

Die Proportionen passen halt nicht, eine I/O-Die wäre sicher nicht so viel größer als eine CPU-Die.
 
Memory Controller hat man sicher weiter auf der CPU, genauso braucht man da immer noch die Interconnects.
 
Das hieße ja nach Adam Riese ca. 8 Kerne auf einem Dice, macht 64 Kerne auf dem Neunerpack, also zusammen 128 Threads. Da hätte ich pro Dice mehr erwartet. Oder der Dice ist einfach so winzig.
MfG
 
So ein Dice könnte <50mm² sein.

Habe in der Richtung auch schon was rumgespielt.
Schaut euch mal den 32 Kern Threadripper an, Ich habe im Schema mal die Einheiten weggestrichen, die nicht verwendet werden.
Threadripper W markiert.png
Die oberen beiden Chips sind lustig, außer CCX und den IFOPs wird nichts verwendet. Da kann AMD also sogar Chips einsetzen, die einen Fehler im Memmory Controller oder bei den PCIe Lines haben. Chips, die sonst direkt in die Tonne gehen.

Bei Rome könnte man auf das gleiche Prinzip setzen, nur CCX und IFOP in einem Chip in 7nm.
Im Prinzip dann also sowas für Rome, für Threadripper entsprechend nur halb soviel MC und PCIe:
rome.png
Interessant wäre auch, dass für einen 16, 24, 32... Kern Prozessor nur die benötigten Anzahl an 8 Kern Chiplets bestückt werden müßten.
Selbst wenn nach der Bestückung sich welche als Defekt herausstellen (schlechte verbindung, Lötung) können diese sicher abgeschaltet und ROME mit weniger Kernen verkauft werden. Nahezu keine Siliziumverschwendung.

--- Update ---

Für AM4 bin ich mir nicht sicher, ob sich das Chiplet Design lohnt. Ein Monolithoscher Chip, Picasso?, wird sicherlich kommen.
Aber ob jetzt ein Zeppelin Nachfolger mit mehr Kernen ohne Gpu kommt oder sowas?
am4.png
Wer weiß. Immerhin könnte der i/O Chip auch eine kleine GPU und MultiMedia Einheit enthalten und extern werden 1 oder 2 Chiplets für 8 oder 16 Kern AM4 CPUs angeflanscht.
Ebenso könnte ich mir vorstellen, dass ein Core Chiplet und ein GPU Chiplet mit HBM platz finden könnte. Für Notebook und Embedded wäre jedenfalls ein Chip interessant, der keinen externen Speicher mehr benötgte.

Lassen wir uns überraschen.
 
Zuletzt bearbeitet:
Überlegt euch mal, wie es mit der Speicheranbing in meinem obigem Fall aussehen würde. Kein Routen über andere Chips außer I/O. Jedem Kern steht gleichberechtigt der volle Speicher zur Verfügung. Zudem könnte der I/O auch noch L4 Cache enthalten und auf den CCX fände sich auch noch etwas mehr Platz für L3 Cache.
Eine 64 Core CPU mit eiger Custom Logik? Kein Problem, wird ein entsprechend billiger Custom I/O eingesetzt.
 
Die APU könnte in 7nm auch 8 Kerne bekommen, dann kann man AM4 nur mit der APU komplett abdecken.

Bei TR4 gibt es dann wie üblich ein MCM mit 1-4 CPU-Dice und teildefekter I/O-Die, weil man ja nur 4 DDR-Channel benötigt.
 
Nicht ganz, die APU ist relativ groß und dürfte erst Ende 2019 in Massenproduktion gehen, eventuel erst mit EUV wegen den Kosten.
Bis dahin muß AMD noch was bringen, dass Intel den Stinkefinger zeigen könnte. Bei entsprechendem Design sollte 8 - 16 Kern 5GHz in 7nm machbar sein.
Wir dürfen halt nicht vergessen, dass die Systeme durch Ihre TDP eingeschränkt sind. 105W AM4, 180W/240W TR, Server weiß ich nicht. Zudem ist auf die verfügbare Bandbreite zu achten, was überhaupt Sinnvoll verbaut werden kann. Sieht man ja beim RavenRidge mit 11CUs.
 
Ja, sollte was kleiner sein. In welcher Größenordnung liegt eigentlich Apples Chip? Aber der wird in 800€ Smartphones verbaut und nicht als Massenware als 100€ APU abgegeben. Dieser erste 7nm Prozess ist noch sehr aufwändig wegen der vielen Masken, dementsprechend schlecht dürfte der Yield sein.
Deswegen flipp ich ja fast aus, wenn ich daran denke, dass ROME CPU 8 Kern Chiplett grade mal 50mm² haben könnte.
 
Mit 64MB L3-Cache soll eine Die bei 50mm² liegen oder hast du da mit weiterhin 16MB gerechnet?

Teuer wird 7nm sicher, deswegen wohl auch der Refresh von Raven Ridge.
 
Ja, sollte was kleiner sein. In welcher Größenordnung liegt eigentlich Apples Chip? Aber der wird in 800€ Smartphones verbaut und nicht als Massenware als 100€ APU abgegeben. Dieser erste 7nm Prozess ist noch sehr aufwändig wegen der vielen Masken, dementsprechend schlecht dürfte der Yield sein.
Deswegen flipp ich ja fast aus, wenn ich daran denke, dass ROME CPU 8 Kern Chiplett grade mal 50mm² haben könnte.
Wird das nicht irgendwann/bereits/langsam :) zum Problem mit der Wärme? Ja, ich weiß, braucht weniger Strom... wenn die Leistung gleich geblieben wäre ;)

Weil selbst wenn man das halt auf die Dices verteilt, man hat einfach nur bisschen mehr wiedermal, nochmals kleinere Hotspots. Auf dem einzelnen Die ist ja die Gegend um die ALUs das heisseste oder? Und die werden quasi so warm wie davor ;) Die kriegen mit 7nm mehr Takt und müßen allgemein mehr ackern (IPC). Wird das nicht so langsam übel immer kleinere "Punkte" zu kühlen?

Ich rede jetzt aber nicht mit leicht erhobenem Finger ;) Die Fragen sind nicht rhetorisch. Ich weiß es halt nicht.
 
War nur ne Hausnummer.
Laut Wikichips 14nm:
CCX
44 mm² area
L3 8 MiB; 16 mm²
Für 7nm würde ich mit der Hälfte rechnen. Machte dann mit 64MB L3: 2 * 22 + 8*8 + ca. 10mm² uncore = 118mm².
Wäre immer noch klein im Verhältnis zu einem "doppeltem Zeppelin".

--- Update ---

Wärme: Das ist ja das hüpfende Komma. Durch den kleineren Prozess kann man bei gleichem Takt weniger verbrauchen oder bei gleichem Verbrauch höher takten.
Da liegt es am Design in welche Richtung man geht. Entsprechend muß man die Hotspots designen. Auf den richtigen Kompromiss kommt es drauf an.

Du meinst aber wahrscheinlich, dass die Wärme / Kern sich in einer immer kleineren Fläche konzentriert. Wie oben gesagt, wird zum Teil durch das Design aufgefangen, Geringerer Verbrauch bei gleichem Takt führt dann zur gleichen Wärmeproduktion/Fläche.
Noch scheint es also machbar zu sein, die Wärme entsprechend abzuführend damit es bei Excel nicht zur Kernschmelze kommt.
 
Ich glaub für Excel braucht man nicht unbedingt nach einem Zen2 zu lechzen.

Du meinst aber wahrscheinlich, dass die Wärme / Kern sich in einer immer kleineren Fläche konzentriert.
Jep. Danke.

Ob bzw. wie gut es machbar ist werden wir ja noch sehen. Aber wenn man das im Design abfängt, entfernt man sich wohl vom Optimum und streckt bzw. verteilt die entsprechenden... Transistorneste :D D.h. man macht ja bereits Kompromisse. Ich bin wirklich ziemlich gespannt.
Auch wenn von Packdichte her TSMC 7nm, klasssich gesehen, eigentlich eher 10.7 nm wären ;)

Ich glaub schon bei 12nm gibts NICHTS auf den Chips was 12nm klein wäre.

Geringerer Verbrauch bei gleichem Takt führt dann zur gleichen Wärmeproduktion/Fläche
Ich glaub eher weniger, daß Zen2 weniger Takt haben wird als Zen1 ;)

Das ganze jetzt gilt natürlich nicht insbesondere dem Zen2. Die Fragen sind allgemeiner Natur. Ja nun. Vega20 wird ja auch irgendwie damit klar kommen. Stimmt schon.
 
Zuletzt bearbeitet:
Ich glaub für Excel braucht man nicht unbedingt nach einem Zen2 zu lechzen.

Glaubst du. Mein letzter Chef war total Happy, dass ich sein Excel sheet mit etwas VBA programmierung mal flüssig zum laufen brachte.
Da kaufen die Manager lieber den Schnellsten und teuersten Laptop anstatt mal nen Programmierer ihre Cheets etwas optimieren zu lassen.
 
Die Proportionen passen halt nicht, eine I/O-Die wäre sicher nicht so viel größer als eine CPU-Die.

Das Problem ist auch, dass man den I/O Kram nicht mehr sinnvoll verkleinern kann, da die Stromstärken, die benötigt werden, die Strukturbreite vorgeben. Nd da ist man schon am unteren Ende.
Den Logik Teil kann man noch verkleinern, die PHYs aber kaum.
 
Woraus ergibt sich das denn? (die benötigten Stromstärken)

Man sollte aber auch nicht ausblenden, daß ebenfalls nach neuen Materialien (Dotierungen) gesucht wird. Das kann bei den PHYs noch bisschen Spielraum ergeben was Strukturbreiten angeht.
Ich meine Intel experimentiert u.a. auch mit Elementen die nicht noch und nöcher besser leiten, sondern eben robuster sind was Stromstärken angeht. Und das wird nicht nur Intel machen ;)
 
Zuletzt bearbeitet:
Na denn. Wobei PCIe4.0 dem wieder bisschen zuarbeitet (Signalpegel) und DDR4 an sich ja auch. Ich denke reale 10nm (REAL ;)) kriegen wir da noch hin, wenn es mal soweit ist.
 
Es spricht eigentlich nichts dagegen einen Teil eines Dies mit fetteren Strukturen zu designen, als den Rest. Klar, ein eigener I/O Die macht für einen Teil sicher Sinn, aber es bleibt dabei das ein Teil des I/O ehh bleiben muss. Infinity Fabric wird über Multi-PHY-Muxing realisiert, und das braucht man auch weiterhin, also bleibt auch PCIe auf dem eigentlich Die. Und genauso werden die Memory Controller und DDR4-PHYs eher nicht ausgelagert, weil das die Latenz erhöht. Bleibt also nur noch der Kleinkram wie USB, Audio, Netzwerk, etc. für den eigenen I/O-Die, aber das lohnt sich kaum dafür einen eigenen Chip zu designen. Ergo: Ich glaube nicht an diese Geschichte.

Edit: Abgesehen davon gibt es den DesignWare Multi-Protocol 25G PHY bereits in TSMC 7nm, und das wird vermutlich ziemlich genau das sein was bei der nächsten Generation verwendet wird.
 
Zuletzt bearbeitet:
Zurück
Oben Unten