AMD Piledriver vs. Steamroller vs. Excavator — Leistungsvergleich der Architekturen
4th Generation: Excavator
(Auszug/Zusammenfassung aus der Meldung vom 03.06.2015)
Die Excavator-Implementierung “Carrizo” ist 250 mm² groß, ein CPU-Modul wird 23 % kleiner gegenüber dem Vorgänger und der Stromverbrauch sinkt um 40 % ggü. Kaveri. Der Level-1-Datencache eines jeden Integer-Clusters wurde von 16 kB und vierfacher Assoziativität auf 32 kB und achtfache Assoziativität vergrößert. Damit dürfte die Trefferrate nach einer Daumenregel ungefähr auf das Vierfache ansteigen. Neues hat AMD nun über dessen Implementierung verraten:
Demnach konnte AMD den Stromverbrauch des L1-Caches trotz dessen Verdopplung halbieren. Bei der aktuellen Präsentation wurde noch ein weiteres Detail bekannt gegeben. Demnach hat AMD auch die Sprungvorhersage verbessert:
Von bisher 512 Einträgen wurde die Anzahl der Einträge des Sprungzielpuffers bei Excavator um die Hälfte auf 768 vergrößert. Dies kommt etwas überraschend, schließlich war eine gute Sprungvorhersage mit ein Hauptvorteil des Bulldozerdesigns. Da eine Einheit für zwei Kerne oder eben Threads verantwortlich ist, fiel sie bereits recht großzügig aus. Möglicherweise ist diese Verbesserung schlicht eine Auswirkung der HD-Libraries. Vor allem das Front-End mit dem Instruktionscachecontroller profitiert ja von AMDs Schrumpfkur:
Vermutlich standen die Ingenieure also schlicht vor dem seltenen Luxusproblem, plötzlich Die-Platz zur Verfügung zu haben. Unter diesen Rahmenbedingungen bietet sich natürlich eine abermalige Investition in eine bessere Sprungvorhersage an.
Ein weiterer Punkt der Sprungvorhersage betrifft die FPU. Diese steht im Falle falscher Sprungvorhersagen nun schneller zur Verfügung als bisher, da der “Flush” der (überflüssigen) Daten bei Excavator schneller vonstattengeht.
Im Gegenzug zur L1-Verdoppelung halbierte AMD den L2-Cache auf 1 MB pro Modul. Trotzdem verspricht AMD für Excavator eine IPC-Verbesserung von 9 bis 13 %:
Damit hat AMD sicherlich alles richtig gemacht. Einerseits spart man einen Großteil der Die-Fläche durch zwei MB weniger L2-Cache, andererseits wird der Prozessor dennoch schneller. Das erfreut den Kunden, während AMD die APU günstiger fertigen kann. Gleichzeitig wird noch der Stromverbrauch gedrosselt. Auf die Hintergründe von AMDs Stromsparkniffen gingen wir bereits im ISSCC-Artikel ein, nun verriet AMD auch noch ein Detail, wie sich der Stromverbrauch auf die einzelnen Chipbereiche im Vergleich zur Kaveri-Generation verteilt und unterscheidet: