Bereits vor längerer Zeit sickerten einige kleine Details zur Steamroller-Architektur durch. So erfuhr man z.B. von einer verbesserten Divisions-Einheit, über die wir hier berichteten. Außerdem gab es ein starkes Gerücht, dass durch die Fachzeitschrift c't letztes Jahr in die Welt gesetzt wurde, wonach die 3. Bulldozer-Generation ein geteiltes Front-End bekommen sollte. Dies wurde jetzt teilweise – für die Dekoder – bestätigt:
Wie man sieht gibt es weiterhin einen gemeinsamen Fetch-Schritt am Pipeline-Anfang, was bedeutet, dass auch weiterhin ein gemeinsamer Instruktions-Cache genutzt wird. Selbiger wird zusätzlich noch vergrößert. Leider gibt AMD noch keine Größe an, aber die nächste 2er-Potenz nach den aktuellen 64 kB würden 128 kB bedeuten. Immerhin prognostiziert AMD schon einmal 30% weniger L1I-Cache-Fehlschläge bei Datenbank-Anwendungen, die wohl für diesen Fall eine Art schlimmstes anzunehmendes Szenario sind.
Zusätzlich wurde die Dispatch-Bandbreite pro Thread noch um 25% erweitert und die Anzahl der falsch vorhergesagten Sprünge um 20% reduziert. Unter dem Strich soll somit eine Steigerung von +30% Ops pro Cycle herauskommen. Geht man großzügigerweise von einem x86 zu µOp-Verhältnis von 1:1 aus, könnte man im (aller-)besten Fall dann auch von einer IPC Steigerung um diesen Betrag ausgehen. AMD gibt an, diese Steigerung bei einem Applikationsmix aus "digital media", "productivity" und Spielen berechnet zu haben.
Auf der zweiten Folie gibt AMD bekannt, die Speicheroperationen des L1-Caches in bedeutender Weise verbessert zu haben. Das hört sich nach viel an, im besten Fall könnte AMD das Design vielleicht sogar von Write-Through auf Write-Back umgestellt haben, denkbar ist aber auch "nur" eine deutliche Vergrößerung des Write-Combining-Buffers, der z.Zt. nur 4 kB groß ist und für beide Integer-Cluster zuständig ist. Weitere 5-10% Plus gibt es durch einen verbesserten Scheduler. Außerdem nennt AMD unter den Mikroarchitektur-Verbesserungen zum Stromverbrauch noch Optimierungen für Schleifen. Das klingt stark nach einem Loop-Puffer, wie ihn auch schon Jaguar bekommen wird. Worüber in unserem Jaguar-Artikel mehr zu erfahren ist.
Auffällig an diesem Bild ist, dass nur eine einzige MMX-Pipeline in der FPU zu sehen ist. Aktuell hat Bulldozer noch zwei MMX-Pipelines. Anscheinend wurde die vierte Pipeline gestrichen, auf der Folie heißt es auch euphemistisch "stream-lined". Möglicherweise ist damit aber zumindest teilweise auch die kompaktere Bauweise gemeint, denn AMD gibt an, durch Verwendung von maschinellen Bibliotheken 30% an Fläche und Stromverbrauch einsparen zu können:
Edit 29.08.2012: Laut Informationen von Anandtech handelt es sich bei obigen Schaubild nur um eine Demonstration des Möglichen, Steamroller bekäme dagegen noch eine hand-entworfene FPU.
Fazit Es scheint, als ob AMD die bisherigen Flaschenhälse richtig erkannt hätte und Steamroller die leidigen Probleme der Bulldozer-Architektur vergessen machen könnte. Der Modul-Ansatz wird durch die getrennte Dekoder-Einheit etwas gelockert, aber durch den gemeinsamen Fetch und L1-Instruktionscache nicht komplett aufgegeben. Zusätzlich wird noch an mehreren Stellen der Stromverbrauch eingeschränkt, sodass es auch mit der maximalen Taktfrequenz höher hinaus gehen sollte. Man darf sicherlich auf den ersten Vertreter mit Steamroller-Kernen, vermutlich die Kaveri-APU gespannt sein.
Diesen Artikel bookmarken oder senden an ...
