AMD präsentiert mit Kaveri die erste APU mit den HSA-Merkmalen hQ und hUMA
Architekturverbesserungen
Aber jetzt zu den Architekturverbesserungen:
Wie wir sehen, hat AMD wirklich einige größere Umbauten getätigt. Einfach zu erklären ist die um 30% verbesserte Trefferrate des L1-Instruktionscaches: Er wurde einfach um 50% vergrößert und fasst nun 96 kB anstatt 64 kB wie bisher. Die L1-Datencaches wurden allerdings nicht vergrößert.
Die durchaus bemerkenswerten Sprungvorhersageverbesserungen um 20% sind unter dem üblichen Zugewinnen im Rahmen eines Die-Shrinks zu verbuchen. Dadurch gewann man Platz, wodurch diverse Puffer vergrößert werden konnten. So wurde z.B. der Branch Target Buffer des L2-Caches verdoppelt und ein Zwischenspeicher für Schleifen eingeführt.
Die Schedulingverbesserung und der vergrößerte Dispatch basieren auf der Tatsache, dass nun zwei getrennt arbeitende x86-Decoder die Recheneinheiten mit Instruktionen versorgen. Laut dem bereits erhältlichen Bios- und Kernel-Entwickler-Leitfaden (BKDG) werden dabei pro Steamroller-Modul bis zu 8 Integerbefehle an die beiden Integer-Cluster weitergeleitet. Vielleicht am spannendsten ist aber das verbesserte “Store-Handling”, was auf Deutsch bedeutet, dass AMD die Ausführung der Schreiboperationen verbessert hat. Die schlechten Schreibraten in die 1. Stufe des Datencaches waren bisher einer der Hauptkritikpunkte an der Bulldozerarchitektur. Normalerweise betragen sie die Hälfte der Leserate, bei Bulldozer war das Verhältnis bisher allerdings bei mageren 1:5, die Schreibraten in den L1 und L2 wegen der Durchschreibeorganisation (Write-Through) der ersten Cachestufe fast identisch. Nun aber ist das Verhältnis endlich bei den normalen 1:2, oder anders ausgedrückt fast 2,5 mal so schnell. Dies lässt sich zumindest im AIDA-Speicherbenchmark überprüfen:
Wodurch AMD dies schaffte, wurde in der Präsentation nicht gesagt, jedoch erwähnt der BKDG die Verdopplung der Store-Bandbreite. Statt einem können nun zwei Store-Operationen pro Takt in einem Modul abgearbeitet werden. Auch das sogenannte Mem-File wurde von 3 auf 8 Einträge erweitert. Dort stehen immer die Daten der letzten 3 bzw. jetzt eben 8 Schreiboperationen. Braucht einer der beiden Kerne die dort stehenden Daten, können sie sofort ohne Umwege über die Caches von dort gelesen werden. Am eher undeutlichen Die-Shot kann man erahnen, dass AMD die Organisation des Datencaches sowie der Load-/Store-Einheit, die jetzt näher an den INT-Pipelines integriert sind, überarbeitet und stark abgeändert hat:
Weitere Verbesserungen betreffen die Crossbar, die alle Einheiten einer Kaveri-APU verbindet. So wurde ein zweiter Onionbus eingeführt, der für die Verbindung der Grafikeinheit an die Kohärenzlogik zuständig ist. Dies ist für hUMA und hQ essenziell.
Insgesamt verspricht AMD eine IPC-Verbesserung von durchschnittlich 10%, wobei je nach Programm alles zwischen 0 bis 20% möglich ist, bei speicherintensiven Applikationen auch gerne mehr.