Prognose-Board: Wie geht es bei AMD weiter? Entwicklungen / Strategien / Maßnahmen, die AMD betreffen bzw. die AMD treffen könnte

Supercomputing Leader Cray Introduces First Exascale-class Supercomputer

Cray Sets New Standard for Industry; National Energy Research Scientific Computing (NERSC) Center Taps Cray System for 2020

[...]

Shasta eliminates the distinction between clusters and supercomputers with a single new breakthrough supercomputing system architecture, enabling customers to choose the computational infrastructure that best fits their mission, without tradeoffs. With Shasta you can mix and match processor architectures (X86, Arm®, GPUs) in the same system as well as system interconnects from Cray (Slingshot™), Intel (Omni-Path) or Mellanox (InfiniBand®).

[...]

The Cray Shasta architecture supports both AMD EPYC CPUs and accelerators, including AMD Radeon™ Instinct™ GPUs.

Und dazu:

Lawrence Berkeley to install Perlmutter supercomputer featuring Cray's Shasta system

One day after unveiling the world's third fastest supercomputer at the Lawrence Livermore National Laboratory, the US Department of Energy (DOE) has announced yet another super-fast machine is on its way.

[...]

Perlmutter (also known as NERSC-9) will be delivered by American supercomputing company Cray, featuring AMD Epyc CPUs and Nvidia Tesla GPUs, and will be based on Cray's forthcoming supercomputing platform 'Shasta.'
 
News zur überfälligen Vega-mobile-GPU: https://www.anandtech.com/show/13532/amds-vega-mobile-lives-vega-pro-20-16-in-november

Es wird spekuliert, dass die Vega-20 nur 20CU (1280SPs) hätte. Vermesse ich die Diesize der Vega-20 auf dem Bild, hätte diese etwa 45% der Diesize von Vega-64, also etwa rund 220mm², was der Größe von Polaris-20 mit 36 CUs entspräche. Damit stellt sich für mich die Frage, wieso ist das Die so groß? Sind dort womöglich doch mehr SPs drauf? Oder findet sich auf dem Die noch etwas Anderes, von dem AMD bisher nicht spricht? Könnte dieses "Andere" der Grund dafür sein, dass Vega-mobile erst so spät kommt?

Mit Vega bringt AMD das Grafik-Ram auf den Chip, mit Hilfe von HBM. Für mich ist das der entscheidende Grund, weshalb AMD bei Vega am teuren HBM festhält: weil damit GPU und das zugehörige Ram auf einem Chip möglich sind.

Bringt man die CPU noch mit auf den Chip, hat man eine deutlich leistungsfähigere APU, weil der Grafik-Ram auch auf dem Chip ist. Packt man nun noch eines der neuen 7nm-Zen2-Chiplets dazu, hätte AMD eine super Highend-Mobile-APU, aber...

...die 7nm-Chiplets haben aber keine North-und Southbridge. Diese Bausteine hat AMD aber in 14nm längst komplett fertig entwickelt auf seinen bisherigen 14nm-RavenRidges. Könnte AMD nun womöglich auf die Mobile-Vega auch schon eine North- und Southbridge mit integriert haben, sodass AMD damit zusammmen mit einem kommenden 7nm-Ryzen2-Chiplet die zukünftige Highend-APU aufbaut? Einfacher, günstiger und schneller könnte AMD nicht eine neue APU mit 7nm-Ryzen2 realisieren. Zudem hätte man auch gleich eine viel leistungsfähigere Grafik mit drauf. Für das Mainstream bliebe RavenRidge(2018!) und als Highend-Lösung gibt es die neue Ryzen2-8Core-1280CU-APU im gleichen Sockel => flache Notebook für alle Hersteller mit super Grafik. Wenn dann nicht AMD endlich Designs bekäme?

Reine Spekulation! Aber es wäre wohl eine super Strategie, die vor allem extrem viel Engneering sparen würde, weil auf Verfügbares zurückgegriffen werden kann. Zudem braucht erst mal keine 7nm-APU entwickelt zu werden, deren Herstellung sowieso erst mal zu teuer wäre und viel zu lange bräuchte.
 
Zuletzt bearbeitet:
Im Moment scheint es einen Trend zu geben, der multiple heterogene Chips (CPU-Chiplet, GPU, HBM, I/O) auf einen Fabric sieht. Der Mobile-Markt benötigt dies vermutlich am ehesten, das ist dann aber wie Kabylake-G eher Mobile-Highend..

Spannend wird es, wie oder ob, AMD diese Strategie in den Mainstream-Markt bringt. Anscheinend ist alles was in 7nm gebraut wird, abartig teuer, so dass nicht glaube, dass es in 2019 besonders viele 7nm Consumer Produkte geben wird.

Die Ravenbridge APU´s könnten einfach nur auf 12nm bei Glofo rutschen. Bleibt also die Frage wie AMD einen Ryzen 3000 realisieren will. Gibt es einen eigenen CPU-Die, oder arbeitet man auch mit einem oder zwei Chiplets + I/O Die.

Aus Kostengründen macht so eine Konstruktion für eine Sub 100$ APU vermutlich weniger Sinn. Zumindest im Moment nicht. Vielleicht in 3-5 Jahren.
 
CPU/APU und HBM auf einem Chip? Das kann doch gar nicht funktionieren, die Technologie ist dermaßen unterschiedlich.
Und wenn ich auf den ROME schaue, dann scheint die Strategie von AMD ja eher zu sein, möglichst mehrere Chips für die jeweiligen Aufgaben zu haben, die dann kombiniert werden.
 
Die Ravenbridge APU´s könnten einfach nur auf 12nm bei Glofo rutschen. Bleibt also die Frage wie AMD einen Ryzen 3000 realisieren will. Gibt es einen eigenen CPU-Die, oder arbeitet man auch mit einem oder zwei Chiplets + I/O Die.

Wenn die RavenRidge2018 APU intern einen Switch hat, mit der wahlweise die IF auf den inneren CCX oder nach außen geleitet wird, dann könnte man an RR18 einen 7nm 8 Core Chiplet anschließen. Die 8 7nm Cores sollten nicht mehr Leistung benötigen als der interne 12nm 4 Core Block der dann abgeschaltet ist. Bliebe die TDP also nahezu gleich.
AMD könnte also einen teildefekten RR18 als I/O Chip für die 7nm CPU Chiplets verwenden, sogar als 8 Core APU für Notebooks. Wäre sicherlich günstiger als einen eigenen I/O Chip aufzulegen.
 
Was alle dabei vergessen ist PCIe 4.0. Da IF die PCIe Lanes nutzt, werden nur neue Chips in 7nm in diesen modularen Baukasten kommen. Nicht vergessen, dass als einziges Feature für Navi "Scalability" genannt wurde auf den Roadmaps. Die Navi GPU wird IMHO ein Chiplet werden, und dann braucht es dafür einen I/O Chip der auch für APUs und AM4-Socket SKUs ausreichend taugt.
1x I/O für Server in 14nm
1x I/O für AM4/GPUs in 14nm
1x CPU-Chiplet in 7nm (Zen2)
1x GPU Chiplet in 7nm. (Navi 10)

Ab Polaris 30 in 12nm ist unterhalb von Navi alles abgedeckt.
Navi wird als 1x Version knapp über Vega64 sein Performanceseitig(20%?) zzgl. ein kleineres Salvage.
Als 2x Navi wird es die RTX GPUs angreifen können (je nach Skalierung der Leistung)
Und als 4x Navi wird es in HPCs angreifen.
Sicherlich wird es noch ein kleineres Navi (11?) Chiplet geben, später um es für APUs zu nutzen und die Polaris Low-end Modelle abzulösen.

Diese Strategie wäre ein wirtschaftlicher Volltreffer. Dies nicht zu tun und weitere monolithische Designs in 7nm zu designen wäre völlig unsinnig und würde sämtliche Vorteile der Chiplet-Strategie wieder zunichte machen.
 
Was alle dabei vergessen ist PCIe 4.0. Da IF die PCIe Lanes nutzt, werden nur neue Chips in 7nm in diesen modularen Baukasten kommen.

Du vergisst, dass der I/O Chip bei ROME mit den vielen, vielen PCIe 4.0 Lanes in 14nm hergestellt wird.
Ich denke , dass für AM4 bei PCIe 3.0 bleibt.
 
Das denke ich nicht. Der I/O Chip wird ja neu designed. Warum sollte der PCIe 3.0 haben?
Nur warum.sollte AMD die Chiplets mit alten PCIe 3.0 APUs in 14nm verbinden? Und der AM4 Sockel ist agnostisch mit den PCIe Versionen. Es ist ein Sockel für SoCs.
 
Zuletzt bearbeitet:
Warum sollte der PCIe 4.0 haben? Gibt doch gar keine Peripherie dafür. Selbst aktuelle GPUs sind mit PCIe 3.0 8 Lanes nicht langsamer als mit 16 Lanes. Sehe einfach keine Notwendigkeit das jetzt schon für AM4 einzuführen.
Und warum keine defekten APUs verwenden. Haben alles drauf, was der I/O Chip braucht und noch etwas mehr. Warum also einen extra I/O designen, womöglich mit GPU? Dann spielen die 4 Cores auch keine Rolle mehr und der Chip kann vielfältiger eingesetzt und durch die Massenproduktion recht günstig werden. Zudem könnte AMD damit auch schon 8 Core APUs für Notebooks anbieten.
Ist eh nur eine Lösung für ein Jahr. 2020 Kommt die monolithische 7nm APU mit 8Core.
Dann ist AM4 eh am Ende. Mehr als 5GHz sollten auch mit EUV nicht drin sein, viel mehr an IPC ist auch nicht mehr rauszuholen, 2 Speicherkanäle limitieren jetzt schon. Threadripper wird nächstes Jahr schon die bessere Gaming Lösung werden ( 16Core 7nm 5GHz, 4 Speicherkanäle).

Ich bin mal gespannt, was AMD bringen wird. Wundern würde mich eine APU als I/O aber nicht.
 
Keine Not? Durch die 24 Lanes ist AM4 extrem beschränkt, mit einem neuen Chipsatz könnte man dann wenigstens mehr als eine NVMe-SSD mit voller Geschwindigkeit anbinden ohne die GPU zu beschneiden, abgesehen davon wird Navi garantiert auch mit PCIe 4.0 kommen, und Intel hat es nicht.
 
Vor allem weil die gesteigerte Banbreite des IF durch PCIe 4.0 bedingt ist. Doppelt so viele Transfers bei selber Frequenz. Da IF Muxed lanes mit PCIe benötigt auf dem I/O ist hier eine Abhängigkeit vorhaden.
 
Diese Strategie wäre ein wirtschaftlicher Volltreffer. Dies nicht zu tun und weitere monolithische Designs in 7nm zu designen wäre völlig unsinnig und würde sämtliche Vorteile der Chiplet-Strategie wieder zunichte machen.

Nur für GPU wird das so noch nicht kommen. Das hat AMD selbst meine ich sogar so gesagt. [könnte Strategie sein]
Aber es scheint noch Probleme zu geben auch GPU`s so zu fahren. [ich kapiers auch nicht - ok jeden Chiplet sein eigenes Bild rendern lassen geht nicht da von Bild zu Bild der Rechenaufwand stark schwanken könnte und man dann so ein Bild nicht rechtzeitig ausgeben könnte] Aber ein 4er Chipletdesign z.B. - da könnte man das Bild doch vierteln und jeder Rechnet sein viertel...] da sollten die zeitlichen Unterschiede nicht mehr so enorm sein...

Ich glaube aber Ihnen im Moment. Ich denke es gibt da noch Probleme die erst gemeistert werden müssen. MultiGPU hat sich ja nicht wirklich durchgesetzt... Im Chipletdesign hat man aber genau das wieder...
 
könnte man dann wenigstens mehr als eine NVMe-SSD mit voller Geschwindigkeit anbinden ohne die GPU zu beschneiden

Das ist wohl eher ein psychologisches Problem als ein technisches. Von NVMe merkt man jetzt schon wenig im Alltag, da wirst du NVMe x2 und x4 in der Praxis nicht mehr unterscheiden können. Und auch PCIe 3.0 x8 ist im Alltag kein Problem.

Ich finde, die Hersteller, die ihre Technik ja besser verstehen als die Verbraucher (ok ok, ich meine die Ingenieure, nicht Marketing oder BWLer) sollten NVMe x2 viel stärker in Richtung "sweet spot" promoten. Das spart ja auch Geld bei der Herstellung und bringt mehr Energieeffizienz. Und warum mit Kanonen auf Spatzen schießen, wenn man dabei nicht trifft (ergo: der Kunde nichts davon merkt)?

Bei Intels Optane-Desaster konnte man sehen, dass die Verbraucher trotz unendlich langer Benchmark-Balken nicht auf den Schwindel hereingefallen sind. Das macht Hoffnung.
 
Zuletzt bearbeitet:
Ist auf jeden Fall wirklich lustig wie alle immer gegen PCIe 4.0 argumentieren? Ja, vielleicht bringt es Euch jetzt persönlich nichts, aber wenn alle immer so argumentieren würden, wären wir immer noch bei PCIe 1.0. Oder auf den Bäumen.
 
Mit PCIe 4.0 ist der Durchsatz für Infinity Fabric doppelt so hoch bei selber Frequenz.
Jede Zen2 SKU profitiert davon.
 
Ich denke eigentlich nicht, dass der Durchsatz das Problem ist, sondern eher die Latenz, was man ja vor allem bei Zeitkritischen Workloads sieht. Deswegen ist die Sprungvorhersage ja eine so viel Zitierte Verbesserung bei AMD.
 
Wenn du doppelt so viel Daten pro Takt über das IF versenden kannst ist die Latenz deutlich besser.
 
@Bomby: Wir sind einfach nur realistisch. Und "Argumentation durch maßlose Übertreibung" hat noch nie funktioniert.

Wenn ein Haus komfortabler ist als ein Baum, gehen wir da gerne rein. Wenn's aber nur ein anderer Baum ist, dann halt nicht.
 
Noch ein Supercomputer-Gewinn bei AMD:

New Penguin/AMD high-performance computing cluster coming to Lawrence Livermore National Laboratory

The system will be provided by Penguin Computing and will be comprised of AMD EPYC™ processors and AMD Radeon™ Instinct™ GPU (graphics processing unit) accelerators connected via a Mellanox HDR 200 Gigabit InfiniBand network.

[...]

The cluster consists of 170 two-socket nodes incorporating 24-core AMD EPYC™ 7401 processors and a PCIe 1.6 Terabyte (TB) nonvolatile (solid-state) memory device. Each Corona compute node is GPU-ready with half of those nodes utilizing four AMD Radeon Instinct™ MI25 GPUs per node, delivering 4.2 petaFLOPS of FP32 peak performance. The remaining compute nodes may be upgraded with future GPUs.

--- Update ---

Die Latenz wird nur bei höherer Frequenz besser.

Und die hat sich laut einiger Angaben wohl von 8 GHz bei PCIe 3.0 auf 16 GHz bei PCIe 4.0 erhöht?
 
Die Latenz wird nur bei höherer Frequenz besser.
Wenn ich für 64B 1 Takt anstatt 2 Takte brauch wird die Latenz nicht besser?

--- Update ---

Und die hat sich laut einiger Angaben wohl von 8 GHz bei PCIe 3.0 auf 16 GHz bei PCIe 4.0 erhöht?
Die G/T(ransfers)/s haben sich von 8 auf 16 verdoppelt. Nicht die GHz.
Pro Link 20 Gbit/s anstatt 10 Gbit/s zuvor. Das entspricht bei 16x PCIe 31,5 GByte/s gegenüber vorher 15,75 GB/s
Doppelte Bandbreite durch doppelt so viele Instruktionen pro Takt.
Um diese Transferrate zu ermöglichen schrumpft die maximale Leitungslänge von 20 auf 8 bis 12 Zoll (20 bis 30 cm). Erforderlich sind auch neue Materialien für Leiterbahnen und Kontakte, um die Signalqualität für diese Geschwindigkeit zu erhalten.
PCIe 4.0 erreicht seine maximale Datenrate auch nur dann, wenn maximal eine Steckverbindung im Leitungspfad hängt (Punkt-zu-Punkt-Verbindung).
 
Laut anderer Angaben ist GT == GHz bei PCIe, und keine Veränderung von wegen Double Data Rate auf Quad Data Rate?

--- Update ---

Ahh, vermutlich ist das:

  • PCIe 3.0: 4 GHz DDR == 8 GT
  • PCIe 4.0: 8 GHz DDR == 16 GT
  • PCIe 5.0: 16 GHz DDR == 32 GT

Jedenfalls schreiben die zum Beispiel hier:

The PCIe 5.0 specification uses a channel with -36 dB attenuation at 16 GHz. The frequency 16 GHz represents the Nyquist frequency of a 32 GT/s digital signal.

--- Update ---

Auch noch gefunden:

D2S2i3y.png


Aus dem PDF hier.
 
Zuletzt bearbeitet:
Ok dann sind es doch die vollen GHz die zur verdoppelung führen. Kürzere Leiterbahnen machen es möglich. Allerdings sieht man ja auch bei dem Sprung von Version 2 auf 3, dass nicht nur die GHz mit eine Rolle spielen. Da wurde von 8b10b Codierung auf 128B130B mit nur noch 1,5 % Overhead umgestellt und ebenso eine Verdoppelung mit lediglich 60% mehr Takt erreicht.

Bisher hatte ich immer nur von doppelten GT/s gelesen und bin daher von ähnlichen Umständen ausgegangen. Danke füe die Quellen und Berichtigung.
 
Zurück
Oben Unten