Der gesockelte Kabini - Athlon 5350 im Test - AMDs Jaguar-Kerne

Artikel-Index:

Anmerkung: Diese Seite wurde von Dresdenboy erstellt, vielen Dank an dieser Stelle!

Nach dem erfolgreichen Start des Bobcat-Kerns in den Notebook- und Embedded-Platform-Märkten legte AMD im Jahr 2013 mit der Jaguar-Mikroarchitektur nach. Diese bildet auch die Basis für den hier getesteten Prozessor. Dessen Fertigung erfolgt im bewährten 28nm-Herstellungsprozess bei TSMC oder Globalfoundries (wie erst kürzlich bekannt wurde). Das verbessert gegenüber dem in 40nm gefertigten Bobcat sowohl den Taktfrequenzspielraum als auch den Verbrauch. Unter der Haube flossen jedoch viele weitere Änderungen ein, die die Leistung des Prozessors deutlich verbessern.

Auf der Hot-Chips-25-Konferenz zeigte AMD die zusammengefassten Entwicklungsziele für die neue Mikroarchitektur. Neben den typischen Zielen von verbesserter IPC, Taktfrequenz sowie Energieeffizienz stand auch die Erweiterung um die gängigen Befehlssatzerweiterungen, wie AVX und AES, und einen größeren physikalischen Adressraum auf dem Programm. Verbesserte Virtualisierungsunterstützung und Portierbarkeit zwischen Prozessen runden das Ganze ab. Letztere erklärt die aktuelle Fertigung bei Globalfoundries.

Eine weitere Folie fasst die Änderungen in der Mikroarchitektur gegenüber dem Bobcat-Kern zusammen. Dessen Mikroarchitektur wurde hier bereits vorgestellt: http://www.planet3dnow.de/vbulletin/showthread.php/385065-Bobcat-das-Bulldoezerchen

Auf der Folie ist zu erkennen, dass in jede Hauptkomponente Verbesserungen eingeflossen sind. Das Front-End erhielt einen besseren Instruction-Cache-Prefetcher sowie einen von 192 Byte auf 256 Byte vergrößerten Befehlspuffer, um Fetch und Decode stärker zu entkoppeln. Ein 4x32 Byte großer Loop-Buffer hilft beim Energiesparen.

Die Integer-Einheit wurde mit zusätzlichen Out-of-Order-Ressourcen und einer Hardware-Dividier-Einheit ausgestattet. Hinzu kommen einige Befehlssatzerweiterungen.

Die FPU erhielt die deutlichste Änderung in Form einer Verbreiterung auf 128 Bit und Unterstützung von 256-Bit-AVX. Allein das verdoppelt den theoretischen SIMD-Durchsatz im Vergleich zur Bobcat-FPU. Die grundsätzliche Struktur wurde etwas optimiert. Wieviel davon in Realität zu sehen ist, zeigen die Tests.

Die Load/Store-Einheit erhielt einen verbreiterten 128-Bit-Datenpfad zur FPU und neu designte Queues und Tablewalks (x86-typische Auflösung virtueller Adressen). Die daran angebundene Bus Unit soll mit verbessertem Write Combining und der Fähigkeit, mehr Transaktionen gleichzeitig zu bearbeiten, sowohl dem verbesserten Durchsatz des Kerns als auch dem neuen geteilten L2-Cache gerecht werden.

Die Pipeline wurde um eine Stufe verlängert (eine zusätzliche Register Read-Stufe), wodurch die Branch Miss Penalty von 13 auf 14 Zyklen steigt. Bis auf diese Änderung gleicht sie der Bobcat-Pipeline.

Der L2-Cache ist deutlich für parallel rechnende Anwendungen und stärker fordernde Multitasking-Aufgaben ausgelegt. Im Vergleich zu den einzelnen L2-Caches der Bobcat-Kerne wurde nun die Größe deutlich erhöht und die gleichzeitige Nutzung durch bis zu vier Jaguar-Kerne eingeführt. Diese Einheit mit den Kernen wird auch Compute-Unit genannt.

Über den Cache können die Kerne effizient gemeinsam auf Daten zugreifen. Die Größe erlaubt auch eine flexible Nutzung je nach Bedarf. Das Interface zu den Kernen läuft mit Kern-Takt, während die vier Cache-Speicherbänke mit halbem Takt arbeiten. Jede Speicherbank liefert 16 Bytes pro Takt, was bei verteiltem Zugriff maximal 64 Bytes pro Takt ermöglicht. Der Cache ist inklusiv ausgelegt und kann mit seinen Tags als Snoop-Filter zwischen den Kernen dienen. Ein neuer Stream Prefetcher soll helfen, die passenden Daten unabhängig von den Core-Prefetchern vorzuladen.

Neben diesen Architekturverbesserungen haben die AMD-Ingenieure natürlich auch die Energieeffizienz weiter optimiert sowie ein flexibleres Management der verfügbaren Energie und des aktuellen Verbrauchs integriert. AMD gibt an, dass bei typischen Applikationen meist mehr als 92% der Transistoren abgeschaltet (clock gated) sind.

Dieser Mikroarchitekturüberblick soll mit einer Tabelle aus AMDs ISSCC-Präsentation abschließen. Diese zeigt weitere physische Eigenschaften und Architekturdetails.

Bobcat-Jaguar-Vergleichstabelle
Quelle: ISSCC 2013