Der neue 64-Bit Prozessor AMD Opteron beinhaltet eine bisher nie dagewesene Anzahl von Befehlssätzen: Neben den Standard-Befehlssätzen x86, i386, i387 und dem neuen x86-64 kennt der Opteron auch noch die SIMD-Befehle MMX und MMX+, sowie 3DNow!, 3DNow!+ und nicht zuletzt die Intel-Befehlssätze SSE und SSE2. So weit, so gut. Doch gerade die lange herbei gesehnte Unterstützung für SSE2 scheint beim Opteron nicht perfekt gelungen zu sein.
Wie die japanische Webseite Akiba2go herausgefunden hat und bereits vorab durch The Inquirer aufgegriffen wurde, ist die SSE2-Performance beim Opteron verglichen mit dem Pentium 4 mangelhaft. Das SSE2 optimierte TMPGEnc lieferte folgende Werte:
Opteron 242 (1.6GHz) : 424 s
Opteron 242-SSE2 OFF : 291 s
Pentium 4 2.8GHz : 295 s
Athlon XP 2600+ : 262 s
Wie man sieht arbeitet der Opteron ohne Verwendung von SSE2 fast 50% schneller, als mit SSE2. Der Multimedia-Benchmark von SiSoft Sandra spuckte folgende Werte aus:
Opteron 242 (1.6GHz) : 6300
Pentium 4 2.8GHz : 11148
Athlon XP 2600+ : 11614
Athlon XP @1600 MHz : 8933
Wie man sieht, arbeitet selbst ein auf 1600 MHz zurückgetakteter Athlon XP mit SSE noch deutlich schneller, als ein Opteron mit SSE2.
Wie kann es dazu kommen? Zuerst einmal muß man bedenken, daß sich die SIMD-Befehle von MMX über 3DNow! bis SSE2 ein wenig anders verhalten, als die übrigen x86-Befehle. Ein Prozessor kann SIMD-Befehle in der Regel sehr viel schneller abarbeiten, als herkömmliche x86-Befehle, normalerweise bei jedem CPU-Takt einen Befehl und damit je nach Staffelung z.B. bei MMX bis zu 8 Byte-Berechnungen pro Takt. Anders formuliert bedeutet das aber, daß sich die SIMD-Leistung eines Prozessors bei gleicher Effizienz direkt proportional zur Taktfrequenz verhält - Model-Rating hin oder her. Der Vergleich Opteron 1.6 GHz vs. Pentium 4 2.8 GHz ist also von vorne herein zum Scheitern verurteilt für den Opteron. Zwar besäße der Opteron doppelt so viele SIMD-Register, doch nachdem bisher kein Programm davon Gebrauch macht, kann er daraus natürlich auch keinen Nutzen ziehen.
Dennoch darf es selbstverständlich nicht sein, daß ein Opteron eine Aufgabe mit SSE2 langsamer verarbeitet, als ein Athlon XP bei gleicher realer Taktfrequenz mit SSE. Hier liegt definitiv etwas im Argen und hat nichts zu tun mit direkter Proportionalität zu irgendwelchen Taktfrequenzen. Möglicherweise liegt es an einer anderweitigen Optimierung für den Pentium 4, die dem Opteron mit SSE2 zu schaffen macht, schließlich besaßen bisher nur Pentium 4 Prozessoren SSE2 und die Programmierer/Compiler-Entwickler gingen möglicherweise davon aus, daß wenn schon SSE2 vorhanden ist, auch der Rest des Codes auf den Pentium 4 optimiert sein müsse. Das gilt es nun zu untersuchen. Sobald Takeo Noguchi, der Autor des Berichts, neue Erkenntnisse dazu gesammelt hat, oder AMD eine Stellungnahme dazu abgegeben hat, werden wir natürlich ein Update zu dieser Meldung veröffentlichen. THX Martin & TinyRK für den Hinweis
Diesen Artikel bookmarken oder senden an ...
