AMD Mantle — Die neue API in einem ersten Test
Update 4: Windows 8.1 — Thief: Skalierung — Ergebnisse
Schauen wir uns zuerst an, welchen Geschwindigkeitsvorteil ein hoher Speichertakt bringt und gehen anschließend zu den Speichertimings über.
Sowohl Mantle als auch DirectX reagieren positiv auf schneller getakteten Arbeitsspeicher. Beide APIs zeigen eine etwa zehnprozentige Steigerung der durchschnittlichen Bildwiederholrate zwischen DDR3-1333 und DDR3-2133. Auch die minimalen FPS steigen bei beiden Techniken an, deren Steigerung fällt bei DirectX prozentual gesehen aber etwas geringer aus.
Die Ergebnisse in Sachen Speichertimings sortieren sich so, wie wir es erwartet haben. Die schnellsten Speichertimings 8–9‑8 sind tatsächlich am schnellsten, die langsamsten Timings 10–11-10 rangieren dagegen am Ende des Feldes. Natürlich gibt es noch weitere Timing-Kombinationen (sowohl noch schnellere als auch noch langsamere), jedoch haben wir uns auf die Timings bei DDR3-1600 beschränkt, die unsere G.Skill-Riegel beherrschen und welche sinnvoll sind. Doch wie man sieht, bringen straffere Speichertimings bei weitem nicht den Vorteil wie schneller getakteter Speicher. Wenn es um das Spiel Thief geht, dann sind straffere Speichertimings, für welche der geneigte Nutzer in der Regel sogar tiefer in die Tasche greifen muss, nahezu irrelevant — und zwar unabhängig davon, ob DirectX oder Mantle zum Einsatz kommt.
Kommen wir nun zum Einfluss des Northbridge-Taktes.
Beide APIs profitieren von einem um 400 MHz erhöhten Northbridge-Takt. Mantle hat jedoch etwas mehr von der Erhöhung.
Und was bringt der CPU-Takt?
Soviel zu unserer These. Entgegen der Annahme bringt selbst die Übertaktung des Prozessors um 700 MHz einen deutlichen Leistungsschub. Sowohl DirectX als auch Mantle profitieren, wenngleich in unterschiedlichem Maße. Während bei Mantle die Minimum-FPS prozentual stärker steigen als bei DirectX, so ist es bei der durchschnittlichen Bildwiederholrate genau andersherum.
Zum Abschluss haben wir noch die bisher separat betrachteten Aspekte gemeinsam verglichen (mit Ausnahme der Speichertimings): die langsamste unserer Einstellungen (4 GHz CPU-Takt, 2,2 GHz Northbridge-Takt, DDR3-1333) mit der schnellsten Einstellung (4,7 GHz CPU-Takt, 2,6 GHz Northbridge-Takt, DDR3-2133). Die Speichertimings beliefen sich bei diesen Tests auf jeweils 10–12-11–28 2T, da unsere G.Skill-Speicherriegel keine besseren Speichertimings bei DDR3-2133 schaffen.
Beide APIs legen auch bei der Kombination mehrerer leistungssteigernder Einstellungen sehr deutlich zu. Die durchschnittlichen FPS unter DirectX erreichen sogar den Wert der minimalen FPS mit Mantle ohne Übertaktung — ein Ergebnis, was ohne Overclocking in weiter Ferne lag. Halten wir also fest: Mantle profitiert (zumindest im Spiel Thief) deutlich von leistungssteigernden Maßnahmen rund um CPU und Arbeitsspeicher. Ein Ergebnis, welches wir in dieser Deutlichkeit nicht erwartet hätten. Zumindest nicht bei einem 4‑GHz-Prozessor mit acht Kernen als Basis.
Aber werfen wir noch einen abschließenden Blick auf die einzelnen Werte und gehen der Frage nach, welche API in unserem gekapselten Testszenario nun besser skaliert. Ist es DirectX? Sprechen beide APIs gleich gut auf Taktveränderungen an? Oder hat gar Mantle den höheren Nutzen?
Zu diesem Zweck haben wir auf Basis unserer drei Benchmark-Durchgänge pro Szenario jeweils die absolute sowie die prozentuale Differenz zwischen DirectX und Mantle ermittelt und in der folgenden Tabelle gegenübergestellt. Die prozentualen Werte, die höher als bei der jeweils anderen API ausfallen, haben wir in einem Grünton dargestellt.
Obwohl straffere Speichertimings generell kaum einen Vorteil bringen, profitiert DirectX einen Tick mehr von dieser Tuningoption. Bei den restlichen Werten fällt vor allem eines auf: Während DirectX in der Regel bei der durchschnittlichen Bildwiederholrate stärker profitiert als Mantle, ist es bei den minimalen FPS genau andersherum.
Auf den zweiten Blick offenbart sich ein weiteres Phänomen: Die prozentuale Leistungssteigerung bei gleichzeitiger Erhöhung aller drei Taktraten (CPU, CPU-NB und RAM) fällt höher aus als die Summe der Steigerungen nur jeweils einer dieser Taktraten. Das zeigt, dass die Erhöhung eines einzelnen Taktes dazu führen kann, dass an einer anderen Stelle ein Limit entsteht. Durch Anpassung aller zur Verfügung stehenden Optionen wird das optimale Ergebnis erzielt, welches die Summe seiner einzelnen Teile übertrifft.
Abschließend müssen wir jedoch darauf hinweisen, dass diese Erkenntnis nicht allgemeingültig ist. Vielmehr hat sich diese Erkenntnis in unserem gekapselten Szenario ergeben, in welchem wir den Mittelwert von je drei Benchmarkdurchläufen in Thief für weitere Analysen genutzt haben. Jeder weitere Benchmark-Durchlauf könnte das Bild leicht verschieben — sowohl im positiven als auch negativen Sinne für eine API. Zudem kann jede andere Anwendung, die beide Techniken unterstützt (derzeit Battlefield 4 und Star Swarm), anders auf performanceverändernde Maßnahmen reagieren.