AMD GCN4 (Polaris, Radeon 400/500) & GCN5 (Vega)

[3DC]Payne;5093626 schrieb:
Was ist eigentlich aus dem von nVidia versprochenen DX12 Treiber für die Fermi Generation geworden?!
Den Vulkan-Support hat nVidia ebenfalls gestrichen. Für die gleichalte Radeon HD 5xxx Serie kommt leider auch nichts mehr dergestalt.
 
Genau, AMD hat gleich gesagt, dass DX12/Vulkan erst ab GCN unterstützt wird und nix mehr für die 'Terrascale' Architektur kommt.

nVidia hat hingegen den DX12 Support für Fermi angekündigt!
Und genau so werden die aktuell auf Geforce.com beworben!
Da steht ganz klar, dass DX12 unterstützt wird, von Fermi.

Und wo ist jetzt der DX12 Treiber für Fermi?!
 
Was hat das jetzt gleich nochmal mit dem Threadthema zutun?
 
Irgendwie passen die bisher bekannten Performance-Daten von Polaris nicht zu den angeblichen technischen Daten:

@Anzahl CUs:
Wenn die GPU >230mm² ist, müsste sie dann nicht weit mehr als 40CU haben? Im 14nm-Prozess sollten die Shader kaum mehr als 50% der Fläche der 28nm-Shader verbrauchen. Weil aber die sonstigen Strukturen (Busse etc.) nicht wirklich mehr werden, müsste für die Shader zusätzliche Fläche frei werden... => könnte es sein, dass Polaris weit mehr als 36 Cluster, also womöglich 44 oder 48 CU besitzt?

@TDP:
Die Effizienz von Polaris vergleiche ich eher mit der Effizienz der CUs von Bristol-Ridge: der hat 8 CUs bei 758Mhz und dabei hat die ganze APU eine TDP=15 Watt, also die GPU vermutlich eher nur die Hälfte davon. Wenn die GPU von Bristol-Ridge etwa 0,7TFlop leistet, wären das grob abgeschätzt etwa 10 Watt pro 1TFlop.
Jetzt kommt Polaris aber im weit effizientern 14nm-Finfet-Prozess. Selbst wenn Polaris inkl. Rest immer noch 10Watt/1TFlop verbraucht, wären das gerade mal eine TDP<60Watt, wenn RX480 <6TFlop leistet.

=> Da passt nicht wirklich viel zusammen. Ebenso sind bisher nur Daten einer RX480 von AMD veröffentlicht worden, die weit billiger ist, als vorher angenommen! Wozu braucht AMD für eine RX480 mit den bisher vorgestellten Daten die maximale Leistung aus dem Polaris holen? Hat man womöglich erst mal einfach die kleine Variante vorgestellt? Könnte die größere dann einfach RX485 heißen?

Ergebnis:
Dass AMD für RX480 einfach mal TDP=150W schreibt, ergibt sich erst mal nur aus der Konfiguration mit dem Zusatzstecker, der eben maximal 150 Watt zulässt. Die RX480 mit <6TFlop sollte weit weniger als 150 Watt verbrauchen, oder?
Polaris-10 sollte in seinem Maximal-Ausbau bei TDP=150W weit mehr als 6TFlop ermöglichen: womöglich hat Polaris-10 mehr als 40CU und kann auch noch weit höher als 1266Mhz takten.

=> Kommt später eine stärkere RX485 mit Polaris-10?

--- Update ---

Ergänzung:

Wenn die neuen Polaris mindestens 2,5-mal so effizient wie die Vorgänger sein sollen, dann dürfte Polaris für die Leistung einer 390X (TDP=275W) kaum über 100 Watt verbrauchen. Vergleiche ich aber mit einer Fury-X, die ebenfalls nur TDP=275Watt hat, dann müsste Polaris-10 bei TDP=150Watt eine Fury-X in der Leistung übertreffen..., ganz zu schweigen, wenn man mit einer Nano vergleicht...

Polaris-10 sollte weit mehr als 6TFlops schaffen...
 
Ich jedenfalls hoffe immer noch auf eine RX490 mit 40+ CUs ~1500 MHz und GDDR5X, deutlich mehr Leistung als Hawaii, und von mir aus auch über 200 Watt TDP. Ich glaube nicht, dass Vega vorgezogen wurde, noch dass Vega zur RX490 werden soll - wenn überhaupt wird Vega wieder etwas wie Fury. Oder Vega 10 und 11 (oder wie auch immer) werden Mitte nächsten Jahres zu RX 580 und RX 590 - sonst hätten die ja nichts außer Rebrands nächstes Jahr.
 
Wenn die neuen Polaris mindestens 2,5-mal so effizient wie die Vorgänger sein sollen, dann dürfte Polaris für die Leistung einer 390X (TDP=275W) kaum über 100 Watt verbrauchen. Vergleiche ich aber mit einer Fury-X, die ebenfalls nur TDP=275Watt hat, dann müsste Polaris-10 bei TDP=150Watt eine Fury-X in der Leistung übertreffen..., ganz zu schweigen, wenn man mit einer Nano vergleicht...

Ich kam auf ähnliche Werte 90-100W bei ~390(X) Leistung. Damit stimmt die angegebene "up to 2,8x P/W" und auch die bessere Effizienz als 1080.
Da die 2.8x eine "up to" Angabe ist, wird sicher nicht die Nano gemeint sein und Hawaii sollte als Referenz passen.
Hawaii Leistung ist auch mindestens zu erwarten, wenn man Shader und Takt vergleicht.
Ist zwar eine Milchmädchenrechnung, aber:
2304 Shader @ 1266MHz = 2777 Shader @ 1050MHz --> zwischen 390 und 390X

Die Frage ist, was die Änderungen an der Architektur noch bringen. Hier weiß man ja so gut wie gar nichts, außer dass alles neu ist.


Eine Interessante Theorie aus dem 3D-Center:
AMD baut eine Stromsparende Ref. Karte und die Partner dürfen Max. OC Modelle bringen. Würde sich mit den angekündigten Devil Karten inkl. Wakü von Powercolor decken, die ja eigentlich immer nur die OC Karten waren.


Spinnerei: Vielleicht gibt es mit 150W ja eine Dual Karte, die da gegen die 1080 angetreten ist.
 
Irgendwie passen die bisher bekannten Performance-Daten von Polaris nicht zu den angeblichen technischen Daten:

@Anzahl CUs:
Wenn die GPU >230mm² ist, müsste sie dann nicht weit mehr als 40CU haben? Im 14nm-Prozess sollten die Shader kaum mehr als 50% der Fläche der 28nm-Shader verbrauchen. Weil aber die sonstigen Strukturen (Busse etc.) nicht wirklich mehr werden, müsste für die Shader zusätzliche Fläche frei werden... => könnte es sein, dass Polaris weit mehr als 36 Cluster, also womöglich 44 oder 48 CU besitzt?
Schau dir nochmal das Architekturschema an:



7 Elemente einschließlich L2 Cache haben eine Architekturveränderung erfahren, wobei in den meisten Fällen davon auszugehen ist, dass es mehr Transistoren werden, statt weniger.

Flächendichte ist auch so eine Sache: in diesem Frühstadium des neuen 14nm Prozesses kann es sein dass die Transistoren pro mm² nicht im gleichen Verhältnis gegenüber den letzten Designs auf dem 28nm Prozess skalieren wie die SRAM-Chips, die von den Marketingabteilungen der Foundries üblicherweise für den Vergleich herangezogen werden.

Da GCN 1.4 auf Effizienz getrimmt sein soll, kann es auch gut sein, dass die neuen CUs sogar je signifikant mehr Transistoren belegen als eine CU der alten Generationen. "Effizienz" mit Priorität Energieeffizienz vorrangig vor Flächeneffizienz. Je feinkörniger man einzelne Einheiten abschalten können möchte, z.B. eine einzelne CU durch Power-Gating, desto höher der Transistoraufwand.

Der Vergleich mit Bristol Ridge hinkt, da GCN 1.4 vs GCN 1.3, anderer Prozess, anderer Sweetspot (Knie in der Effizienzkurve), bzw. überhaupt Betonung auf diesen Sweetspot (Mobilgeräte).

Letzter Punkt: Ich kann mir auch gut vorstellen, dass selbst die Relation Grafikleistung vs Rohleistung (TFlops) signifikant verschoben wird in Richtung mehr Grafikleistung in der Praxis bei bestehender Rohleistung auf dem Papier.
 
Zuletzt bearbeitet:
@Anzahl CUs:
Weil aber die sonstigen Strukturen (Busse etc.) nicht wirklich mehr werden, müsste für die Shader zusätzliche Fläche frei werden... => könnte es sein, dass Polaris weit mehr als 36 Cluster, also womöglich 44 oder 48 CU besitzt?
Die sonstigen Structuren lassen sich nicht unbeding shrinken. Die Pads und Leistungstransitoren für I/O werden den gleichen Platzbedarf haben wie in 28nm. Zudem werden eventuell noch neue Einheiten und andere architektonische Maßnahmen weitere Transistoren brauchen.
Selbst ein reiner Hawai (438 mm²) shrink würde schon größer als 219mm² werden bei 1:2.
Ich rechne mit max 40 Cluster.
Vielleicht sehen wir die ja bei Apple, wie es bei Tonga auch der Fall war.
Zudem kann AMD die kleinere Variante besser Liefern und für später schon mal die guten Sammeln.
 
Theoretisch sollte bei 14 nm nur noch 25 % der Fläche verbraucht werden.

Von daher sind bei >200 mm² in 14 nm vs. >400 mm² eigentlich deutlich mehr Transistoren zu erwarten (bis zu 2x - wie gesagt theoretisch).
 
Da der Prozess noch am Anfang ist würde ich das auch nicht überbewerten, siehe Tahiti vs. Tonga.
Der Tahiti hat lt. Wikipedia eine Fläche von 365 mm² bei 4,31 Mrd Transistoren.
Der Tonga hat lt. Wikipedia eine Fläche von 359 mm² bei 5 Mrd Transistoren.
Man könnte also sagen das die Packungsdichte im laufe der Zeit deutlich zugenommen hatte.
 
Ich jedenfalls hoffe immer noch auf eine RX490 mit 40+ CUs ~1500 MHz und GDDR5X, deutlich mehr Leistung als Hawaii, und von mir aus auch über 200 Watt TDP. Ich glaube nicht, dass Vega vorgezogen wurde, noch dass Vega zur RX490 werden soll - wenn überhaupt wird Vega wieder etwas wie Fury. Oder Vega 10 und 11 (oder wie auch immer) werden Mitte nächsten Jahres zu RX 580 und RX 590 - sonst hätten die ja nichts außer Rebrands nächstes Jahr.

40+ niemals, 40 vielleicht.
1500 mhz niemals, etvl als luftgekühlte oc-rekorde
gddr5x niemals, amd setzt auf gddr5 und hbm2. 3 optionen kosten zu viel

vega wird bestimmt rx5 + fury 2, die 40 cu p10 wird dann rx 580.
 
Theoretisch sollte bei 14 nm nur noch 25 % der Fläche verbraucht werden.

Von daher sind bei >200 mm² in 14 nm vs. >400 mm² eigentlich deutlich mehr Transistoren zu erwarten (bis zu 2x - wie gesagt theoretisch).

Werden die nm nicht nur in eine Dimension (Gatelänge) angegeben, wodurch es 50% bzw. die gleiche Transistoranzahl auf der halben Fläche ergibt.
 
Damit wird lediglich eine bestimmte Strukturgröße angegeben.
Wie dicht die Transistoren dabei zusammen hocken ist dafür irrelevant, daher auch die zum Teil sehr unterschiedlichen Packungsdichten.
 
40+ niemals, 40 vielleicht.
1500 mhz niemals, etvl als luftgekühlte oc-rekorde
gddr5x niemals, amd setzt auf gddr5 und hbm2. 3 optionen kosten zu viel

1. GDDR5X ist nur ein minimales Upgrade für den MC, und es ist abwärtskompatibel zu GDDR5.
2. Welche Frequenzen mit dem 14nm FinFET von GloFo bei GCN erreichbar sind ist pure Spekulation. Der Energieverbrauch steigt natürlich exponentiell mit der Frequenz.
 
Der Energieverbrauch steigt natürlich exponentiell mit der Frequenz.

Ich will hier jetzt nicht die immer wieder beliebte Diskussion über die Leistungsaufnahme in Abhängigkeit der für ohmsche Widerstände, Spulen und Kondensatoren gültige Formelsammlung aus der Oberstufe wiederbeleben, aber...
Bist Du Dir da sicher?
MfG
 
Ich will hier jetzt nicht die immer wieder beliebte Diskussion über die Leistungsaufnahme in Abhängigkeit der für ohmsche Widerstände, Spulen und Kondensatoren gültige Formelsammlung aus der Oberstufe wiederbeleben, aber...
Bist Du Dir da sicher?
MfG

Naja, alle Kurven die ich bisher gesehen habe sehen praktisch so aus - natürlich spielt auch der höhere Spannung und die Temperatur eine Rolle. Jedenfalls wollte ich nur damit ausdrücken, dass auch das Power Target bei AMD der Grund für die derzeit bekannten Frequenzen sein kann, und es ist ziemlich sicher, dass mehr Output auch mehr Input braucht. Abgesehen davon dürfte bei Polaris durch "per CU Powergating" wenigstens bei deaktivierten CUs auch kein/kaum Strom mehr benötigt werden.
 
Zuletzt bearbeitet:
Sicher das dabei nicht ander Spannung geschraubt wurde und diese Spannungserhöhung dafür verantwortlich bzw. die Temperatur dabei mit gestiegen war?
 
Ich will hier jetzt nicht die immer wieder beliebte Diskussion über die Leistungsaufnahme in Abhängigkeit der für ohmsche Widerstände, Spulen und Kondensatoren gültige Formelsammlung aus der Oberstufe wiederbeleben, aber...
Bist Du Dir da sicher?
MfG

Ich denke, wichtiger Nebenfaktor ist, dass mit der Frequenz auch höhere Spannung gebraucht wird. Und höhere Spannung sorgt eher dafür, dass die Verlustleistung exponentiell steigt.
 
Die Verlustleistung steigt linear mit der Frequenz und quadratisch mit der Spannung.

Leckströme sind eher Kandidaten für exponentiellen Anstieg.
 
Exponentiell ist leider ein konkreter mathematischer Begriff, und der trifft hier leider nicht zu. Bei festgehaltener Spannung geht die Verlustleistung nämlich linear mit dem Takt. Darüber hinaus kann man physikalische Gesetzmäßigkeiten nur in sehr engen Grenzen anwenden, weil das Wesen einer zeitgemäßen Architektur darin besteht, dass in recht kurzen Zeiträumen Spannungen rauf- und runtergeschaltet oder ganze Bereiche aktiviert und deaktiviert werden. Aber lassen wir das.
MfG
 
Werden die nm nicht nur in eine Dimension (Gatelänge) angegeben, wodurch es 50% bzw. die gleiche Transistoranzahl auf der halben Fläche ergibt.
Es wird nur die eine Dimension angegeben, auf die Fläche gerechnet ist es dann aber - annähernd - quadratisch.

Das die 14 nm nicht wirklich 14 nm entsprechen ist klar, aber mehr als eine Verdopplung der Transistorenzahl sollte auch jetzt schon drin sein.
 
Zurück
Oben Unten