Vishera Reloaded
Performance mit vier Threads
Auf dieser Seite möchten wir uns den Performance-Unterschied anschauen, welcher bei Nutzung von vier Threads auf vier Modulen bzw. vier Threads auf zwei Modulen entsteht. AMD gibt an, durch Verdoppelung der Register sowie der Integer-Einheiten, was etwa 20 Prozent des Flächenbedarfs eines “echten” Kerns bedeutet, ca. 80 Prozent der Performance eines Kerns erzielen zu können. Auf unsere Testreihe übertragen bedeutet dies, dass vier Threads, welche auf vier Modulen laufen (also je Thread die kompletten Ressourcen eines Moduls zur Verfügung stehen) schneller arbeiten können als vier Threads, die sich die Ressourcen von zwei Modulen teilen müssen. Vier Threads auf zwei Modulen sollen also etwa 90 Prozent der Leistung von vier Threads auf vier Modulen erreichen. So sind jedenfalls die Angaben von AMD zu verstehen. Werfen wir nun einen Blick auf die Praxis, für welche dieses Mal das Gigabyte GA-990FXA-UD7 zum Einsatz kommt:
Das Ergebnis in XMPEG zeigt jedoch noch eine weitere Besonderheit, welche nicht aus dem Diagramm hervorgeht: In Normalkonfiguration (also acht Threads auf vier Modulen) dauert der XMPEG-Benchmark zwischen 185 Sekunden (Turbo CORE aktiviert) und 191 Sekunden (Turbo CORE deaktiviert). Beide Konfigurationen mit vier Threads unterbieten dieses Ergebnis mehr als deutlich. Zuerst hatten wir hier das verwendete Gigabyte-Mainboard in Verdacht. Doch wir mussten schnell feststellen, dass es tatsächlich an den zur Verfügung stehenden Ressourcen liegt. Denn aktiviert man auch auf dem Gigabyte-Mainboard wieder alle acht Threads des FX-8350, so landet die Bearbeitungszeit auch wieder im bisher bekannten Zeitfenster. Somit scheint diese Software ein Problem mit der Modulbauweise zu haben bzw. mit weniger Ressourcen besser klarzukommen. Möglicherweise liegt das an herumgereichten Bearbeitungsthreads, welche immer wieder auf gerade abgeschalteten Kernen landen, was bis zum erneuten Aufwachen einige Taktzyklen kostet. Eine weitere Erklärung könnte sein, dass XMPEG häufig auf Daten im L2-Cache zurückgreift. Sobald ein Bearbeitungsthread auf ein anderes Modul verschoben wurde, ist der L2-Cache des soeben noch genutzten Moduls für den Thread nicht mehr erreichbar, sodass erst wieder nachgeladen werden muss.
Über unseren kurzen Testparcours gemittelt erreicht die Modulbauweise 92 Prozent der Leistung von vier Threads auf vier nativen Kernen. Insofern wird die Aussage von AMD, etwa 90 Prozent der Leistung zu erreichen, ziemlich genau eingehalten.