Bei Systemen mit mehreren Prozessoren gibt es bedingt durch die Architektur einige Besonderheiten zu beachten.
Wer mehr wissen will, dem empfehlen wir den
Artikel Doping für CPUs – Möglichkeiten der Leistungssteigerung. Im
folgenden werden wir lediglich auf die Besonderheiten der Opteron CPU bezüglich SMP eingehen.
Die wohl bedeutendste dürfte mittlerweile allen bekannt sein – der on-Die Memory-Controller. Somit verfügt in
einem Mehrprozessor-System jeder Prozessor über seinen eigenen Speicherbus und Speicher. Bei bisherigen x86-SMP
Systemen befand sich der Memory-Controller im Chipsatz und musste von allen Prozessoren gemeinsam genutzt werden.
Dass an dieser Stelle nicht nur der Flaschenhals eines solchen Systems lag, sondern es auch des öfteren zu Konflikten kam,
ist wenig verwunderlich.
Da der Opteron nicht zu den Brot-und-Butter Prozessoren dieser Welt gehört und jedem Leser geläufig ist,
möchten wir anfangs die Architektur dieser CPU kurz umreissen. Für tiefere Einblicke
in die AMD x86-64 Technologie empfehlen wir unseren Architektur-Artikel von 2001.
Der eigentliche Kern der K8 Architektur (Opteron, Athlon 64) ist sehr nahe verwandt mit dem bewährten K7 (Athlon), so dass 100%ige
Kompatibilität zur
bestehenden Software - anders als bei der IA64 Architektur des Intel Itanium - gegeben ist.
Die Architektur des Athlon 64 und Athlon 64 FX gleicht der des Athlon XP überraschenderweise beinahe wie ein Ei dem anderen. Wir sehen genau
wie bei der bewährten K7-Architektur drei Decoder-Einheiten, die drei AGU/ALU Einheiten (für Ganzzahl-Operationen) sowie
eine FPU-Einheit (Fließkomma-Operationen) mit drei Pipelines zu füttern haben. Ein Abziehbild der K7-Architektur. Die Unterschiede
zum K7 liegen - zumindest in der Architektur - lediglich im Detail; von der Erweiterung der Adress- und Datenregister auf 64-Bit einmal abgesehen.
Wie der Athlon XP besitzt auch die K8 Familie eine exklusive Cache-Verwaltung. Das bedeutet, dass Daten, die im L1-Cache liegen,
niemals gleichzeitig auch im L2-Cache liegen können. Der K8 verwaltet Level 1 und Level 2 Cache so, als wären sie ein großer Cache-Pool.
Das Gegenteil davon, die inklusive Cacheverwaltung, verwendet zum Beispiel der Pentium 4. Hier kann es vorkommen, dass ein und die selben
Daten sowohl im L1-, als auch im L2-Cache liegen und damit natürlich kostbaren Pufferspeicher verschwenden. Nachteil der exklusiven
Cacheverwaltung: i.d.R. etwas längere Latenzzeiten aufgrund der komplexeren Verwaltung.
Integrierter Speicher-Controller
Erweitert hat AMD den Kern um einen prozessorinternen Speichercontroller. Beim Athlon XP wie auch beim Pentium 4 saß der
Speicher-Controller bisher in der Northbridge auf dem Mainboard - über den Frontside-Bus (FSB) verbunden mit dem Prozessorkern; betrieben
entweder mit 200 MHz DDR (Athlon XP, effektiv 400 MHz, resultierend 3,2 GB/s) oder 200 MHz QDR
(Pentium 4, effektiv 800 MHz, resultierend 6,4 GB/s). Doch egal wie schneller der FSB eines Systems arbeitet - die indirekte Anbindung
des Prozessors über den FSB an den Speicher-Controller kostet immer Performance, da so die Latenzzeiten relativ lang ausfallen.
Ferner stellt der FSB - zumindest im Falle des Athlon XP - einen Flaschenhals
dar, da er selbst in der schnellsten Ausführung "nur" 3,2 GB/s an Daten transportieren kann, obwohl ein Chipsatz
wie der nForce2 satte 6,4 GB/s anliefern könnte, wie folgendes Bild zeigt:
Flaschenhals FSB: AMD Athlon XP System mit nForce2 Chipsatz
Man sieht auf der Skizze drei wesentliche Komponenten:
Der Memory-Controller sitzt, wie deutlich zu erkennen, in der Northbridge des Mainboards. Im Falle des Athlon XP mit nForce2 Chipsatz,
den unsere Skizze darstellen soll, sieht man, dass der Memory-Controller zwar satte 6,4 GB/s von den Speicher-Modulen lesen könnte,
(Twinbank/ Dual-Channel DDR sei dank), der Frontside-Bus des Athlon XP - also die Verbindung zwischen CPU und Memory-Controller -
jedoch nur maximal 3,2 GB/s an Daten zum Prozessor transportieren kann. Der Frontside-Bus beim Athlon XP ist also ein
Flaschenhals!
AMD Opteron-System
Anders beim Opteron! Hier sitzt der Memory-Controller nicht in der Northbridge auf dem Mainboard, sondern direkt
in der CPU! Der zeitraubende Transport über einen Frontside-Bus fällt beim Opteron also komplett weg!
Nicht nur, dass der K8-Prozessor mit voller Geschwindigkeit des Speicherbusses aus den RAMs lesen kann; der "kürzere Dienstweg"
führt im selben Atemzug auch zu wesentlich niedrigeren Latenzzeiten (Verzögerungen). Doch dazu später bei den Benchmarks mehr.
Bei SMP-Systemen kommt noch hinzu, dass zwei Opteron-System über den integrierten HyperTransport-Link ganz bequem zusammengeschaltet
werden können. Zusätzliche Controller-Chips auf dem Mainboard sind dazu nicht notwendig.
Diesen Artikel bookmarken oder senden an ...