Bereits vor anderthalb Jahren haben wir von IBMs Vorhaben berichtet den ersten PetaFLOPS Rechner der Welt zu bauen. FLOPS ist dabei die Abkürzung für Floating Point Operations Per Second (daher endet auch der Singular davon mit S) und steht für die Leistungsfähigkeit eines Prozessors oder eines Systems Fließkomma-Zahlen zu berechnen. Peta ist ein Vorsatz und steht für eine Billiarde (10 hoch 15). Ein Rechner, der 1 PetaFLOPS Rechenleistung erreicht, ist demnach in der Lage pro Sekunde mehr als eine Billiarde Fließkomma-Operationen durchzuführen.
Auftraggeber für diesen Supercomputer, der übrigens den Namen "Roadrunner" trägt, ist die US-Regierung. Diese will damit neue Erkenntnisse für Atomwaffen gewinnen.
Hergestellt wird Roadrunner vom US-Unternehmen IBM. Der Supercomputer ist dabei in einer Hybrid Cluster-Bauweise ausgelegt, besteht also nicht aus identischen Einzelsystemen, die zu einem großen Supercomputer zusammengeschaltet werden, sondern aus Teilsystemen aus verschiedenen Welten. Auf der einen Seite werkeln fast 7000 AMD Opteron Prozessoren - übrigens in der alten Dual-Core Bauweise (K8), nicht auf Basis des neuen K10 Quad-Core mit Barcelona-Kern. Der Rest der Systeme ist mit knapp 13000 IBM Cell-Prozessoren bestückt, wie sie in einer ähnlichen Ausführung auch in der Playstation 3 zu finden sind.
Der IBM Cell-Prozessor ist für sich betrachtet bereits ein Hybrid, ein heterogener Multi-Core Prozessor, denn anders als etwa die AMD- oder Intel-Mehrkern-Prozessoren besteht der Cell nicht aus mehreren gleichen Kernen. Stattdessen besteht der Cell aus einem 64-Bit PowerPC-Kern mit SMT-Fähigkeit, der als Steuerelement dient und zusätzlich je nach Ausführung bis zu acht Synergistic Processing Elements (SPE), die für sich betrachtet relativ "dumm" sind, aber einen enormen Durchsatz an SIMD-Berechnungen zu Stande bringen.
Beim Roadrunner dürften die Cell-Prozessoren für einen Großteil der PetaFLOPS verantwortlich sein. Dennoch ist der Cell - wie er in der PS3 zum Einsatz kommt - kein Universal-Genie. Seine hohe Rechenleistung erreicht er lediglich bei Single-Precision Berechnungen. Aus diesem Grund kommt beim Roadrunner eine neue Version des Cell zum Einsatz, der PowerXCell 8i, der insbesondere im Bereich Double-Precision SIMD Performance deutlich verbessert worden ist. Trotzdem hat sich IBM dazu entschieden zusätzlich noch knapp 7000 AMD Opteron-CPUs hinzuzufügen, die zwar nicht den selben Peakdurchsatz erreichen, aber äußerst universell einsetzbar sind und sowohl SIMD- als auch FPU-Berechnungen - ebenso wie alle aus dem x86-Bereich bekannten Opterationen - durchführen können.
Dass der Cell ein Rechenmonster ist, haben auch Distributed Computing Projekte wie Folding@Home bereits vor längerer Zeit erkannt. Dort wurde ein Client für die Playstation 3 entwickelt, der laut Folding-Stats auf gut 54.000 aktiven PS3s eine Rechenleistung von 1527 TFLOPS erreicht. Zum Vergleich: knapp 200.000 Windows-PCs erreichen nur die vergleichsweise mickrige Leistung von 189 TFLOPS. Das allerdings nur, da Folding anscheinend mit Single-Precision Genauigkeit auskommt. Wenn doppelte Genauigkeit gefragt ist, schwindet der Vorteil des Cell massiv. Dann erreichen die 8 SPEs zusammen gemäß IBM nur noch gemessene knapp 14 GLOPS (Linpack), ein Wert den auch ein Pentium 4 mit SSE3 erreicht. Man darf auf offizielle Zahlen der neuen Cell-Version gespannt sein. Für einen Bladeserver mit zwei PowerXCell 8i gibt IBM einen DP-Wert von 217 GFLOPS an.
Die Anzahl der AMD Opteron-Prozessoren ist gegenüber dem ursprünglichen Entwurf von 16.000 auf 7.000 verringert worden, wobei davon auszugehen ist, dass die K8 Dual-Core in einer Ausbaustufe des Roadrunner sicherlich irgendwann durch K10-CPUs mit 4 (Barcelona, Shanghai), 6 oder 12 (Istanbul) Kernen ersetzt werden wenn Bedarf an noch mehr Rechenleistung besteht.
Momentan dürfte der Roadrunner mehr als genug Rechenleistung haben, denn er ist aktuell der schnelleste Computer der Welt. Allerdings hat IBM ihn noch nicht an seine künftigen Eigner übergeben. Er steht noch immer als Testinstallation im IBM-Center in Poughkeepsie (US-Staat New York), wo er seine letzten Funktionstests absolvieren muss. Dabei muss sich IBM beeilen, wenn Roadrunner es noch in die kommende Version der renomierten Supercomputer Top500-Liste schaffen will. Danke neax für den Hinweis.
Update:
Wer sich die Mühe macht die Roadrunner-Präsentation des Los Alamos National Laboratory zu lesen, dem offenbart sich erst der eigentliche Hintergedanke hinter Roadrunner. Auf den ersten Blick und beim Lesen der zahlreichen PetaFLOPS-Meldungen könnte man den Eindruck gewinnen, es handle sich lediglich um einen weiteren Clusterrechner bekannter Machart; nur dass in diesem Fall eben neben dem für Cluster recht beliebten Opteron auch Cells verwendet wurden. Doch in diesem Fall steckt ein anderes Konzept dahinter. Roadrunner ist kein Cluster aus Cell-Blades mit ein paar eingestreuten Opterons, sondern ein Opteron-Cluster, dem die Cells als "Arbeitsbienen" zur Seite gestellt wurden. Jeder Opteron-Kern hat dabei einen Cell-Prozessor "unter sich", der für ihn die mathematischen Berechnungen durchführt. Das Konzept erinnert ein wenig an frühere Co-Prozessoren, die dem eigentlichen Prozessor als externe Spezialisten für Fließkomma-Berechnungen zur Verfügung standen. Nur, dass der Cell in diesem Fall nicht neben den Opterons auf dem Mainboard sitzt, sondern per HyperTransport und PCI-Express x8 angeflanscht ist, in einem eigenen Gehäuse sitzt und über eigenes RAM verfügt.
Diesen Artikel bookmarken oder senden an ...