AMD stellt Mainstream-Grafikkarte Radeon RX 480 mit Polaris-Architektur vor

Artikel-Index:

Nach einer längeren Durststrecke will AMD im Grafikkarten-Markt wieder durchstarten. Entgegen der sonst üblichen Strategie erfolgt der Angriff nicht vom High-End aus, sondern im volumenträchtigen Mainstream. Hier griff AMD zuletzt innerhalb der Radeon-Rx-300-Serie auf zum Teil doch recht betagte GPUs (z. B. „Pitcairn”) zurück. In diesem Grafikkarten-Marktsegment mit Preisen von 100 bis 300 US-Dollar will man jetzt mit den beiden neuen „Arctic Islands”-GPUs „Polaris 10” und „Polaris 11” verloren gegangene Marktanteile zurückerobern und wieder in die Erfolgsspur finden. Neben Optimierungen auf Seiten der zugrunde liegenden GCN-GPU-Architektur hilft hierbei, dass mit dem sogenannten 14-nm-FinFET-Prozess von Samsung und GlobalFoundries endlich eine neue Fertigung mit kleineren Strukturgrößen zur Verfügung steht. Hierdurch können gegenüber dem bisherigen sogenannten 28-nm-Prozess nicht nur mehr Transistoren auf gleicher Die-Fläche untergebracht werden, sondern kann auch deren Leistungsaufnahme deutlich reduziert werden.

Wie schon auf der GDC 2016 angekündigt will AMD beim Thema Virtual Reality weiterhin voll auf Angriff setzen. Die heute vorgestellte Radeon RX 480 auf Basis der „Polaris-10”-GPU, die in der Entwicklungsphase mit „Ellesmere” bezeichnet wurde, soll den Einstiegspreis für Virtual-Reality-fähige Systeme signifikant herabsetzen und so die neue Technologie einem breiteren Markt zugänglich machen. Für Anbieter entsprechender Inhalte vergrößert sich entsprechend der adressierbare Markt. AMD hofft hier auf Synergieeffekte. Mehr Content erhöht die Nachfrage nach dedizierten Grafikkarten und umgekehrt. Aber auch für den nach wie vor größten Anteil unter den PC-Spielern, die laut Steam-Statistik typischerweise einen einzelnen Monitor mit einer Auflösung von 1080p nutzen, bringt „Polaris” einige interessante Neuerungen.

Zu einem späteren Zeitpunkt folgen die Radeon RX 470 (teildeaktivierte „Polaris 10”) und Radeon RX 460 („Polaris 11”). Den nachfolgenden Folien sind nur ein paar Informationshäppchen zu entnehmen. Bei „Polaris 11” ist AMD zudem auf die gegenüber „Bonaire” von 1,9 mm auf 1,5 mm verringerte Höhe des Chips stolz, was wegen der darauf basierenden mobilen Lösungen für Notebooks von Interesse sein dürfte.

Polaris-Architektur

Bei „Polaris” handelt es sich abermals um keine von Grund auf neu entwickelte GPU-Architektur. AMD setzt stattdessen auf eine kontinuierliche Weiterentwicklung der bekannten Architektur Graphics Core Next (GCN), die in AMDs Zählung nunmehr ihre vierte Ausbaustufe erreicht hat.

Aus den einzelnen Recheneinheiten (CUs) konnte durch Detailverbesserungen (verbesserter Prefetch für Befehle, größere Befehlspuffer, verbesserte Nutzung des L2-Caches) eine um bis zu 15 % höhere Leistung herausgekitzelt werden. Außerdem können jetzt auch die CUs der dedizierten GPUs nativ Berechnungen in den Datenformaten FP16 und Int16 mit reduzierter Genauigkeit durchführen, was für bestimmte Algorithmen völlig ausreichend ist, darüber hinaus bei der Reduzierung der Leistungsaufnahme helfen kann. Bisher war diese Funktionalität den GPUs in AMDs „Carrizo”-APUs vorbehalten. Im Rahmen von GPUOpen bietet AMD Entwicklern für DirectX 11, DirectX 12 und Vulkan passende Schnittstellen an, um spezielle Funktionen der eigenen Hardware verwenden zu können. Außerdem wurden abermals die Geometrieberechnungen optimiert und die Tessellationsleistung erhöht.

Mittels der neu hinzugekommenen HWS-Einheiten (Hardware Scheduler) werden die GPUs bei der asynchronen Abarbeitung von Rechenaufgaben noch flexibler. Zusätzlich zur bisher schon möglichen parallelen Abarbeitung von Grafik- sowie Compute-Kernels können jetzt vom HWS solche Kernel per Preemption unterbrochen oder mit hoher Priorität eingeschoben werden. Wichtig werden diese Fähigkeiten speziell bei VR-Anwendungen, wo zu große Latenzen zwischen Eingabe (z. B. Kopfbewegung) und Reaktion der virtuellen Umgebung schnell die Präsenz kaputt machen oder gar zu Übelkeit führen können.

Damit die GPU vom relativ schmalen 256-Bit-Speicherinterface nicht ausgebremst wird, haben die Ingenieure auch hier einige Stellschrauben angepackt. Zum einen können die GDDR5-Chips jetzt mit bis zu 8 Gbps angesteuert werden, zum anderen kann Polaris mit der verfügbaren Bandbreite effizienter umgehen. Hierzu wurde die Effizienz der verlustfreien Komprimierung (Delta Color Compression, DCC), welche erstmals von „Tonga” zum Einsatz gebracht wurde, weiter verbessert und Anpassungen am Grafiktreiber vorgenommen. Zusätzlich hilft der auf 2 MiB vergrößerte L2-Cache.

Bei den weiteren Optimierungen und Verbesserungen lag das Augenmerk insbesondere auf der Unterstützung von HDR-Displays und neuen Verbindungsstandards zur Anbindung von 4K- (120 Hz oder 96 Hz bei HDR) und 5K-Displays (60 Hz) mit nur einem einzelnen Kabel. Hierzu wurde eine neue Display-Engine entwickelt, die Unterstützung für DisplayPort 1.3 HBR3, DisplayPort 1.4 HDR und HDMI 2.0b bietet. Zudem kann FreeSync jetzt auch über HDMI 2.0b genutzt werden, was gemäß AMD bereits 28 Displays von Acer, LG, MstarSemiconductor, Novatek, Realtek und Samsung unterstützen.

HDR-Displays stellen einen deutlich größeren Anteil des Farbspektrums dar, welches das menschliche Auge wahrnehmen kann. Die Display Engine von Polaris kann normale 8-Bit-Farbbilder, 10-Bit- und 12-Bit-HDR-Bilder ausgeben. Für eine optimale Bildqualität wie zur Vermeidung von zusätzlichen Latenzen durch Umwandlungen im Display kann dessen Konfiguration ausgelesen und berücksichtigt werden. Über das neue Radeon PhotonSDK kann bereits die Spiele-Engine auf diese Information zugreifen, um ein optimiertes Bild zu generieren.

Auch die Multimedia-Beschleuniger von „Polaris”, UVD (Unified Video Decoder) und VCE (Video Coding Engine), wurden aufgerüstet. Die aufgebohrten Einheiten unterstützen höhere Bildwechselfrequenzen und neben H.264 jetzt auch HEVC (H.265) bei Auflösungen von bis zu 4K. Erstmals kann ein 2-Pass-Encoding zur Erhöhung der Bildqualität beim Streamen verwendet werden. Außerdem beherrscht UVD nun die Dekodierung von HDR-Videos.

14 nm FinFET und Design-Optimierungen

Aufgrund der immer kleineren Strukturgrößen sind die statischen Leckströme zu einem immer größeren Problem geworden, welches mit Hilfe von Power Gating, Voltage Islands, Back Bias oder anderen Tricks bekämpft wurde, die aber alle einen negativen Effekt auf die Performance haben. Mit dem neuen sogenannten 14-nm-FinFET-Prozess konnten nicht nur die absoluten Leckströme, sondern auch deren Variation stark reduziert werden. Zwischen den besten und den schlechtesten Chips aus der Produktion besteht also kein so großer Unterschied bei der für einen fehlerfreien Betrieb notwendigen Spannung. Beim Binning muss bei der Spannung also kein so großer Puffer mehr eingeplant werden, was zu einer Verringerung der Leistungsaufnahme führt.

Im Weiteren hat AMD in die Trickkiste der APU-Ingenieure gegriffen und Adaptive Clocking implementiert. Hierdurch kann die Spannung niedriger gewählt werden, weil ein Algorithmus durch Rechenlast verursachte Spannungsabfälle vorhersagt, infolgedessen rechtzeitig für ein schnelles Absenken der Taktfrequenz sorgt. Eine weitere Methode, die beim Einstellen eines jeden Chips auf dessen optimale Betriebsparameter hilft, ist das Adaptive Voltage & Frequency Scaling (AVFS). Hierzu wurden neben den bereits über den gesamten Die verteilten Sensoren für Leistungsaufnahme (indirekt errechnet über Auslastung) und Temperatur noch Sensoren zur Detektion der Frequenz eingebaut. Mittels Boot Time Power Supply Calibration (BTC) wird abermals eine Variation der Spannung aus dem Spiel genommen. Vor der Auslieferung wird auf dem Chip eine Spannungsanalyse durchgeführt; die gleiche Analyse erfolgt beim Booten des PCs. Zur Vermeidung einer unnötig hohen Leistungsaufnahme wird das Ergebnis aus dem Vergleich beider Analysen zur Anpassung der Steuersignale an die Spannungswandler verwendet. Auch Alterungseffekte werden durch die Adaptive Aging Compensation eliminiert, sodass die bisher vorgesehenen 2 bis 3 % Taktfrequenz-Puffer entfallen können. Angewendet wurden noch weitere Design-Kniffe bei der Auslegung der elektrischen Schaltungen.

Radeon RX 480

Als erster Vertreter der neuen Polaris-Generation geht die Radeon RX 480 an den Start. Ausgestattet ist sie mit 36 CUs, welche auf vier Shader Engines mit jeweils eigenem Geometry Processor sowie Rasterizer aufgeteilt sind. Angetrieben werden die sich somit ergebenden 2304 Shader mit einer Taktfrequenz von 1120 MHz (Boost bis 1266 MHz), was eine theoretische Rechenleistung von 5,1 bis zu 5,8 TFLOPS ergibt. Überdies besitzt jede CU vier TMUs, sodass insgesamt 144 verbaut sind. Das Back-End besteht aus 32 ROPs und acht 32-Bit-Speichercontrollern, die an einem 2 MiB großen L2-Cache hängen. Zur Verwaltung von asynchronen Grafik- und Compute-Kernels stehen vier ACE- ebenso wie zwei HWS-Einheiten zur Verfügung. Zur Kommunikation in CrossFire-Gespannen wird weiterhin die XDMA-Engine verwendet, sodass keine CrossFire-Brücken notwendig sind. Über das 256 Bit breite Speicherinterface wird der GDDR5 mit 224 GB/s angesteuert. Die „Board Power” gibt AMD mit 150 W an, was sich aus den zulässigen Maximalbelastungen des PCIe-Slots (75 W) und des einzelnen 6-Pin-Steckers (ebenfalls 75 W) ergibt.

Für die Positionierung im Markt wurde die NVIDIA GeForce GTX 970 als Gegner auserkoren, den es zu schlagen gilt. In den AMD-eigenen Messungen gelingt dies auch zumeist. Beim Referenzdesign wollen die Designer besonderen Wert auf einen geräuscharmen Kühler gelegt haben. Nach den Vorstellungen von AMD ist die Radeon RX 480 zu Preisen ab 214,20 € (4 GiB RAM) und ab 255,85 € für die Version mit einem Speicherausbau von 8 GiB ab heute verfügbar.

Quelle: AMD

» Alle Folien