Roadrunner mit AMD-Power erster PFLOPS-Rechner der Welt

Nero24

Administrator
Teammitglied
Mitglied seit
01.07.2000
Beiträge
24.066
Renomée
10.446
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2021
<div style="float:left;margin-right:10px"><a href="http://www.planet3dnow.de/photoplog/index.php?n=2551"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2551" border="1" alt=""></a></div>Bereits vor anderthalb Jahren haben wir von IBMs Vorhaben <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1157640089">berichtet</a> den ersten PetaFLOPS Rechner der Welt zu bauen. FLOPS ist dabei die Abkürzung für Floating Point Operations Per Second (daher endet auch der Singular davon mit S) und steht für die Leistungsfähigkeit eines Prozessors oder eines Systems Fließkomma-Zahlen zu berechnen. Peta ist ein Vorsatz und steht für eine Billiarde (10 hoch 15). Ein Rechner, der 1 PetaFLOPS Rechenleistung erreicht, ist demnach in der Lage pro Sekunde mehr als eine Billiarde Fließkomma-Operationen durchzuführen.

Auftraggeber für diesen Supercomputer, der übrigens den Namen "Roadrunner" trägt, ist die US-Regierung. Diese will damit neue Erkenntnisse für Atomwaffen gewinnen.

Hergestellt wird Roadrunner vom US-Unternehmen IBM. Der Supercomputer ist dabei in einer Hybrid Cluster-Bauweise ausgelegt, besteht also nicht aus identischen Einzelsystemen, die zu einem großen Supercomputer zusammengeschaltet werden, sondern aus Teilsystemen aus verschiedenen Welten. Auf der einen Seite werkeln fast 7000 AMD Opteron Prozessoren - übrigens in der alten Dual-Core Bauweise (K8), nicht auf Basis des neuen K10 Quad-Core mit Barcelona-Kern. Der Rest der Systeme ist mit knapp 13000 IBM Cell-Prozessoren bestückt, wie sie in einer ähnlichen Ausführung auch in der Playstation 3 zu finden sind.

Der IBM Cell-Prozessor ist für sich betrachtet bereits ein Hybrid, ein heterogener Multi-Core Prozessor, denn anders als etwa die AMD- oder Intel-Mehrkern-Prozessoren besteht der Cell nicht aus mehreren gleichen Kernen. Stattdessen besteht der Cell aus einem 64-Bit PowerPC-Kern mit SMT-Fähigkeit, der als Steuerelement dient und zusätzlich je nach Ausführung bis zu acht Synergistic Processing Elements (SPE), die für sich betrachtet relativ "dumm" sind, aber einen enormen Durchsatz an SIMD-Berechnungen zu Stande bringen.

Beim Roadrunner dürften die Cell-Prozessoren für einen Großteil der PetaFLOPS verantwortlich sein. Dennoch ist der Cell - wie er in der PS3 zum Einsatz kommt - kein Universal-Genie. Seine hohe Rechenleistung erreicht er lediglich bei Single-Precision Berechnungen. Aus diesem Grund kommt beim Roadrunner eine neue Version des Cell zum Einsatz, der PowerXCell 8i, der insbesondere im Bereich Double-Precision SIMD Performance deutlich verbessert worden ist. Trotzdem hat sich IBM dazu entschieden zusätzlich noch knapp 7000 AMD Opteron-CPUs hinzuzufügen, die zwar nicht den selben Peakdurchsatz erreichen, aber äußerst universell einsetzbar sind und sowohl SIMD- als auch FPU-Berechnungen - ebenso wie alle aus dem x86-Bereich bekannten Opterationen - durchführen können.

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2550"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2550&w=l" border="0" alt=""></a><br><font size="1">Quelle: <a href="http://fah-web.stanford.edu/cgi-bin/main.py?qtype=osstats" TARGET="_blank">Stanford University</a></font></center>

Dass der Cell ein Rechenmonster ist, haben auch Distributed Computing Projekte wie <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1173999674">Folding@Home bereits vor längerer Zeit erkannt</a>. Dort wurde ein Client für die Playstation 3 entwickelt, der laut Folding-Stats auf gut 54.000 aktiven PS3s eine Rechenleistung von 1527 TFLOPS erreicht. Zum Vergleich: knapp 200.000 Windows-PCs erreichen nur die vergleichsweise mickrige Leistung von 189 TFLOPS. Das allerdings nur, da Folding anscheinend mit Single-Precision Genauigkeit auskommt. Wenn doppelte Genauigkeit gefragt ist, schwindet der Vorteil des Cell massiv. Dann erreichen die 8 SPEs zusammen gemäß IBM nur noch gemessene knapp 14 GLOPS (Linpack), ein Wert den auch ein Pentium 4 mit SSE3 erreicht. Man darf auf offizielle Zahlen der neuen Cell-Version gespannt sein. Für einen Bladeserver mit zwei PowerXCell 8i gibt IBM einen DP-Wert von 217 GFLOPS an.

Die Anzahl der AMD Opteron-Prozessoren ist gegenüber dem ursprünglichen Entwurf von 16.000 auf 7.000 verringert worden, wobei davon auszugehen ist, dass die K8 Dual-Core in einer Ausbaustufe des Roadrunner sicherlich irgendwann durch K10-CPUs mit 4 (Barcelona, Shanghai), 6 oder 12 (Istanbul) Kernen ersetzt werden wenn Bedarf an noch mehr Rechenleistung besteht.

Momentan dürfte der Roadrunner mehr als genug Rechenleistung haben, denn er ist aktuell der schnelleste Computer der Welt. Allerdings hat IBM ihn noch nicht an seine künftigen Eigner übergeben. Er steht noch immer als Testinstallation im IBM-Center in Poughkeepsie (US-Staat New York), wo er seine letzten Funktionstests absolvieren muss. Dabei muss sich IBM beeilen, wenn Roadrunner es noch in die kommende Version der renomierten Supercomputer Top500-Liste schaffen will.
Danke neax für den Hinweis.

<b>Update:</b>
<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2552"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2552" border="1" alt=""></a></center>
Wer sich die Mühe macht die <a href="http://www.lanl.gov/orgs/hpc/roadrunner/pdfs/Koch%20-%20Roadrunner%20Overview/RR%20Seminar%20-%20System%20Overview.pdf" TARGET="_blank">Roadrunner-Präsentation</a> des Los Alamos National Laboratory zu lesen, dem offenbart sich erst der eigentliche Hintergedanke hinter Roadrunner. Auf den ersten Blick und beim Lesen der zahlreichen PetaFLOPS-Meldungen könnte man den Eindruck gewinnen, es handle sich lediglich um einen weiteren Clusterrechner bekannter Machart; nur dass in diesem Fall eben neben dem für Cluster recht beliebten Opteron auch Cells verwendet wurden. Doch in diesem Fall steckt ein anderes Konzept dahinter. Roadrunner ist kein Cluster aus Cell-Blades mit ein paar eingestreuten Opterons, sondern ein Opteron-Cluster, dem die Cells als "Arbeitsbienen" zur Seite gestellt wurden. Jeder Opteron-Kern hat dabei einen Cell-Prozessor "unter sich", der für ihn die mathematischen Berechnungen durchführt. Das Konzept erinnert ein wenig an frühere Co-Prozessoren, die dem eigentlichen Prozessor als externe Spezialisten für Fließkomma-Berechnungen zur Verfügung standen. Nur, dass der Cell in diesem Fall nicht neben den Opterons auf dem Mainboard sitzt, sondern per HyperTransport und PCI-Express x8 angeflanscht ist, in einem eigenen Gehäuse sitzt und über eigenes RAM verfügt.

<b>Links zum Thema:</b><ul><li><a href="http://www.planet3dnow.de/vbulletin/showthread.php?p=3631281#post3631281">Fact Sheet & Background: Roadrunner Smashes the Petaflop Barrier</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1173999674">Folding@Home auf der PlayStation 3</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1157640089">Supercomputer mit Cell und Opteron</a></li><li><a href="http://www.top500.org/" TARGET="_Blank">Top500 Supercomputing Sites</a></li><li><a href="http://www-128.ibm.com/developerworks/power/library/pa-cellperf/" TARGET="_blank">Cell Broadband Engine Architecture and its first implementation</A></li><li><a href="http://www.top500.org/blog/2008/06/09/international_supercomputing_conference_host_first_panel_discussion_breaking_petaflop_s_barrier" TARGET="_blank">International Supercomputing Conference to Host First Panel Discussion on Breaking the Petaflop/s Barrier</A></li></ul>
 
Beim Roadrunner dürften die Cell-Prozessoren für einen Großteil der PetaFLOPS verantwortlich sein. Dennoch ist der Cell kein Universal-Genie. Seine hohe Rechenleistung erreicht er lediglich bei Single-Precision Berechnungen. Aus diesem Grund hat sich IBM wohl dazu entschieden noch knapp 7000 AMD Opteron-CPUs hinzu zu fügen, die zwar nicht den selben Peakdurchsatz erreichen, aber äußerst universell einsetzbar sind und sowohl SIMD- als auch FPU-Berechnungen - ebenso wie alle aus dem x86-Bereich bekannten Opterationen - durchführen können.
[...]
Dass der Cell ein Rechenmonster ist, haben auch Distributed Computing Projekte wie <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1173999674">Folding@Home bereits vor längerer Zeit erkannt</a>. Dort wurde ein Client für die Playstation 3 entwickelt, der laut Folding-Stats auf gut aktiven 54.000 PS3s eine Rechenleistung von 1527 TFLOPS erreicht. Zum Vergleich: knapp 200.000 Windows-PCs erreichen nur die vergleichsweise mickrige Leistung von 189 TFLOPS. Das allerdings nur, da Folding anscheinend mit Single-Precision Genauigkeit auskommt. Wenn doppelte Genauigkeit gefragt ist, schwindet der Vorteil des Cell massiv. Dann erreichen die 8 SPEs zusammen gemäß IBM nur noch gemessene knapp 14 GLOPS (Linpack), ein Wert den auch ein Pentium 4 mit SSE3 erreicht. An dieser Stelle dürfen dann die AMD Opteron-Prozessoren in die Presche springen, wobei davon auszugehen ist, dass die K8 Dual-Core in einer Ausbaustufe des Roadrunner sicherlich irgendwann durch K10-CPUs mit 4 (Barcelona, Shanghai), 6 oder 12 (Istanbul) Kernen ersetzt werden wenn Bedarf an noch mehr Rechenleistung besteht.

das trifft zwar auf den cell prozessor in der ps3 zu, jedoch nicht auf dessen nachfolger, der auch im roadrunner verbaut wird:

Der Cell eDP soll bei gleicher Taktfrequenz von 3,2 GHz deutlich mehr Rechenleistung bei Dual-Precision-(DP-)Gleitkomma-Aufgaben liefern als herkömmliche Cell-Versionen; ein BladeCenter-H-Chassis voller QS22 soll laut IBM bis zu 3 TFLOPS erreichen und bei Single-Precision-Berechnungen 6,4 TFLOPs. Weil ein BladeCenter-H-Chassis vierzehn Q22-Einschübe mit je zwei PowerXCell 8i fasst, beträgt die DP-Performance pro physischem Prozessor also etwa 107 GFLOPS und pro Blade 214. Beim "gewöhnlichen" Cell soll die DP-Rechenleistung rund 26 GFLOPS betragen, also pro Blade mit zwei Cells nur etwa 52 GFLOPS.

http://www.heise.de/netze/IBM-kuend...erivat-PowerXCell-8i-an--/news/meldung/107850

und da die anzahl der opteron-cpus von ursprünglich geplanten 16k auf 7k reduziert wurde und damit die leistung der opterons bei knapp 20tflops liegen dürfte, stellt sich wirklich die frage, wofür genau die opterons gebraucht werden
 
das trifft zwar auf den cell prozessor in der ps3 zu, jedoch nicht auf dessen nachfolger, der auch im roadrunner verbaut wird ...
Im Forum hatte ich ebenso etwas dazu geschrieben.

... Dabei übernimmt der Opteron weiterhin die "Steueraufgaben, während die Cells die meiste Rechenkraft liefern.

enhanced-cell.jpg

Quelle

Der Cell (PowerXCell 8i) in 65 nm hat SMT-Betrieb der Cell SPEs und ist im nun voll für Pipelinebetrieb ausgelegt. Auch sind die Gleitkommaeigenschaften näher an den üblichen IEEE-Gleitkommastandards dran.
Bei 45 nm ist ein "Dualcore"-Cell geplant mit sogar insgesamt 32 SPE-Einheiten (nicht 16 SPEs, was eine Verdopplung der Streaming-Einheiten pro Cell-Kern ab 2010 bedeutet).

Natürlich vermeidet AMD den Cell zu erwähnen. Aber IBM hat sich nun mal zu diesem hybriden Rechner-Design entschieden, lange bevor überhaupt der K10 das Licht der Welt erblickte. Zwar nutzt der Cell eine abweichende ISA von den früheren Power-Architekturen, aber seit einiger Zeit ist auch der Cell in der allgemeinen Power-Architektur-ISA enthalten. ...

und da die anzahl der opteron-cpus von ursprünglich geplanten 16k auf 7k reduziert wurde und damit die leistung der opterons bei knapp 20tflops liegen dürfte, stellt sich wirklich die frage, wofür genau die opterons gebraucht werden
Die Frage stellt sich nicht, die wurde schon in dem Projekt Roadrunner beantwortet. ;)

Mitglied Opteron hat dazu ein aktuelles PDF gefunden.

Der Opteron hat dort weniger mit der HPC-Problemlösung zu tun (die möglichst vektoriell vorliegen sollte), sondern übernimmt dort vorwiegend skalare Steuer/Verwaltungsaufgaben.

MFG Bobo(2008 )
 
Zuletzt bearbeitet:
dass er für die steuerung zuständig ist, war mir klar, es ging mir um zusätzliche aufgaben, da ich ansonsten die anzahl der opterons zu hoch ansehe, aber das liegt wohl eher an meinem gefährlichen halbwissen
 
Schade, dass solch fortschrittliche Technik für sowas wie Atomwaffentests verschwendet wird.:[
 
Schade, dass solch fortschrittliche Technik für sowas wie Atomwaffentests verschwendet wird.:[

lieber virtuelle als reale tests;)

zumal er ja vorerst auch mit "nützlichen sachen" beschäftigt ist:

Roadrunner soll vor allem für militärische Zwecke eingesetzt werden, aber bevor der Supercomputer geheime Simulationen mit Kernwaffen durchspielt, soll er Wissenschaftlern bei der Erforschung des Klimwandels helfen.
http://www.heise.de/newsticker/Roadrunner-knackt-die-PetaFLOPS-Marke--/meldung/109165
 
lieber virtuelle als reale tests;)
Schon. Dennoch ist es in meinen Augen eine Verschwendung.

Übrigens ziemlich zynisch mit der Kiste erst den Klimawandel zu simulieren und anschließend die Zerstörung ganzer Landstriche durch Atomwaffen.
 
Interessant. Die Angaben zum "neuen" Cell wurden im Artikel ergänzt. Vielen Dank.
 
Ich hoffe die haben wenigstens ordentlich CO2 Zertifikate für das energiefressende Ungetüm gekauft.
Ich findes es hat eine gewisse Absurdität mittels CO2 Verschwendung Klimaberechnungen durchzuführen :]

lg
__tom
 
Jetzt muss nur noch McCain Präsident werden und die können ihre Berechnungen in die Tat umsetzen....*suspect*

Die sollen lieber für uns bei Poem mitrechnen. *chatt*
 
Hm, interessant.

Mit 1 PFlops schafft es Roadrunner immerhin auf Platz 3 hinter Folding (1,95 PFlops) und BOINC (1,15 PFlops), gar nicht schlecht fuer ein Einzelsystem.

Schade nur, dass er fuer die Hauptbeschaeftigung der Spezies Mensch rechnet : andere Menschen vom Erdball tilgen...
 
Zuletzt bearbeitet:
....Auftraggeber für diesen Supercomputer, der übrigens den Namen "Roadrunner" trägt, ist die US-Regierung. Diese will damit neue Erkenntnisse für Atomwaffen gewinnen.

Hergestellt wird Roadrunner vom US-Unternehmen IBM.
...
Netter Artikel, ich finde es schon genial, was IBM da mit dem Cell auf die Beine stellt. Eines muss ich aber noch anmosern: Ich denke du wolltest wohl "Hergestellt" schreiben....
 
dass er für die steuerung zuständig ist, war mir klar, es ging mir um zusätzliche aufgaben, da ich ansonsten die anzahl der opterons zu hoch ansehe
Nach dem Update des Artikels dürfte auch klar sein, was die Opterons dort sollen bzw. wieso die Anzahl der Opteron Prozessoren halbiert worden zu sein scheint.

Roadrunner ist kein Zusammenschluss eines Opteron-Clusters und eines Cell-Clusters. Roadrunner ist ein waschechter Opteron-Cluster. Allerdings - und das ist das besondere an Roadrunner - wurde jedem Opteron-Kern ein Cell-Prozessor zur Seite gestellt, quasi als Co-Prozessor, der für ihn die mathematische "Drecksarbeit" erledigt.

Im damaligen Entwurf, der oben im Artikel verlinkt ist, ist auch von 16.000 Opteron-Kernen die Rede, nicht von 16.000 Opterons, ergo 8.000 Opteron-Prozessoren. Wie damals beschrieben hat jetzt jeder Opteron-Kern einen Cell-"Co-Prozessor" erhalten. Nur dass es keine 8.000 Opterons geworden sind, sondern "nur" 7.000.
 
Also ist der Opteron der eigentliche Star ;D
.
EDIT :
.

Damit dürfte auch ein Barcelona/Shanghai unwahrscheinlich werden, da die Cell Prozessoren verdoppelt werden müssten :] Schade.
 
würde auf dem Gothic 3 flüssig laufen?

wenn ja ======> GEKAUFT *buck*
 
So einen PPC/Cell hätte ich auch schon gern als Co-Prozessor. Aber ich glaub ich bleib vorerst bei Energiesparenderen Modellen.

Jetzt muss nur noch McCain Präsident werden und die können ihre Berechnungen in die Tat umsetzen....*suspect*

Die sollen lieber für uns bei Poem mitrechnen. *chatt*

Ich glaub eher, der wäre der letzte, der die einsätzen würde. Immerhin hat er bereits entsprechende reale Erfahrungen. Nicht wie manch andere, Präsidenten und Verteidigungsminister, die den Krieg nur vom Schreibtisch kennen.

Aber wozu braucht man heute noch Großrechner um neue Generationen von A-Waffen zu entwickeln. Einerseits ist da sicher schon alles Berechnet und getestet worden, was man je testen konnte. Andererseits sollten die aktuellen Bestände locker für die nächsten Jahrzehnte ausreichen.
 
hab ich mir fast schon gedacht....*chatt*
 
Nero24 schrieb:
Stattdessen besteht der Cell aus einem 64-Bit PowerPC-Kern mit SMT-Fähigkeit, der als Steuerelement dient und zusätzlich je nach Ausführung bis zu acht Synergistic Processing Elements (SPE), die für sich betrachtet relativ "dumm" sind, aber einen enormen Durchsatz an SIMD-Berechnungen zu Stande bringen.

Da musste ich irgendwie schmunzeln ;-) Aber sehr sehr schöner Artikel, bitte bitte mehr davon :) :)
 
Ich bitte darum den OffTopic-Ton etwas abkühlen zu lassen.

Abgesehen davon hat die USA sehr früh die Halbleiterentwicklung und die Entwicklung von Rechnerarchitekturen auch als militärisch bedeutsam eingestuft.

Der Roadrunner, Crays XT-4 und auch manch anderes Projekt wäre weniger wahrscheinlich gewesen, wenn die Darpa und andere US-Institutionen im "High Performance Computing"-Bereich nicht schon Vorüberlegungen gemacht hätten.

Japan hat diese Strategische IT-Offensive der USA vor Jahren aufgenommen und hat ebenso versucht ihre Halbleiterindustrie mit Forschungs- und Entwicklungsprojekten auf die Spitze zu bringen.
Teilweise kann man damit NECs Superprozessor der SX-Reihe erklären ... für den Masseneinsatz sind NECs HPC-Supercomputerchips völlig ungeeignet.

Richtig ist, dass Institutionen wie die NSA (Department of Energy’s National Nuclear Security Administration) ihre Forschungslabors Los Alamos National Laboratory, Lawrence Livermore National Laboratory und Sandia National Laboratories für militärische Simulationstests nutzt.

Tatsache ist aber auch, dass die normale zivile Forschung und Entwicklung ebenso diese Rechner/Rechnerarchitekturen für ihre Simulationszwecke kaufen können (im Rahmen der Ausfuhrverbote von US-Hochleistungschips).


Was die Argumente der US-Politik angeht: Wer Kanonenbootpolitik im Stil des frühen 20 Jahrhunderts betreibt, mit Atomwaffen in der Hinterhand, der darf sich nicht wundern, wenn potenzielle politische Gegner auch diesen Atomaren Hammer haben wollen.

Das Beispiel Indien Pakistan zeigt, dass mit dem Besitz von Atomwaffen plötzlich auf beiden Seiten so etwas wie Realpolitik aufzieht ... Die eiskalte Logik der Atomaren Abschreckung funktioniert offenbar auch bei Mittelmächten.

MFG Bobo(2008 )
 
Zurück
Oben Unten