Erneut weniger AMD-Systeme in TOP500-Liste

pipin

Administrator
Teammitglied
Mitglied seit
16.10.2000
Beiträge
24.371
Renomée
9.696
Standort
East Fishkill, Minga, Xanten
  • SIMAP Race
  • QMC Race
  • RCN Russia
  • Spinhenge ESL
  • Docking@Home
  • BOINC Pentathlon 2019
  • SETI@Home Intel-Race II
  • THOR Challenge 2020
  • BOINC Pentathlon 2021
  • BOINC Pentathlon 2023
In der TOP500-Liste der Supercomputer vom Juni 2008 sind im Vergleich zur letzten Liste erneut weniger Systeme mit Prozessoren von AMD vertreten. Allerdings steht AMD nun an der Spitze der Liste.

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2559"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2559"></a></center>

In der TOP500-Liste vom November 2007 waren noch 79 Systeme mit AMD inside vertreten, diese Anzahl hat sich nun auf 55 reduziert (13 davon Quad-Core Systeme). Dafür belegt man innerhalb der Top Ten nun die Plätze 1, 4 und 5.

An der Spitze steht man mit dem dem ersten PetaFLOPS Rechner der Welt namens Roadrunner (wir <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1213095800">berichteten</a>), in dem 7.000 Dual-Core Opteron Prozessoren und 13.000 IBM Cell Prozessoren zum Einsatz kommen.

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2560"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2560"></a></center>

<b>Links zum Thema:</b>
<ul><li><a href="http://www.top500.org/list/2008/06/100" target="b">TOP500 List - June 2008</a></li><li><a href="http://www.top500.org/list/2007/11/100" target="b">TOP500 List - November 2007</a></li></ul>
 
der platz 1 ist doch aber - ehrlicherweise - augenwischerei...
Die Leistung wird fast vollständig von den Cells erkauft, welche nur durch die Optis gesteuert und mit Daten versorgt werden und daher eher Co-Prozessor sind.
Trotzdem machen sie den großteil der arbeit.

Wäre ja, als wenn man sagen würde, dass der AMtel Q9500X2 (phantasie) der schnellste Prozessor für Folding wäre, nur weil man die Berechnungen insgeheim auf der GPU ausgeführt hat und somit schneller als jeder verfügbare Prozessor ist...
 
der platz 1 ist doch aber - ehrlicherweise - augenwischerei...
Die Leistung wird fast vollständig von den Cells erkauft, welche nur durch die Optis gesteuert und mit Daten versorgt werden und daher eher Co-Prozessor sind.
Trotzdem machen sie den großteil der arbeit.

Wäre ja, als wenn man sagen würde, dass der AMtel Q9500X2 (phantasie) der schnellste Prozessor für Folding wäre, nur weil man die Berechnungen insgeheim auf der GPU ausgeführt hat und somit schneller als jeder verfügbare Prozessor ist...

Wenn der einzige sinn und zweck wäre, einen supercomputer zu bauen damit der eine oder andere CPU hersteller futter für die marketingabteilung hätte, dann wäre es augenwischerei. So ist es aber nicht und AMD hat mit 7000 prozessoren sein scherflein dazu beigetragen, die vorläufig schnellste rechenmaschine der geschichte zu bauen. Das man damit überall in den news vertreten ist, ist ein angenehmer nebeneffekt.
 
Der IBM Roadrunner ist beides, sowohl ein x86-64 Rechner mit AMD-Prozessoren (Dualcores wohlgemerkt, keine Quadcores).

Er ist aber auch ein Power-Architektur-Rechner, da der Cell seit geraumer Zeit offiziell auch in der Power Architektur ISA aufgenommen wurde.

Zwar können die SPE-Einheiten mit einer älteren PowerArchitektur Instruktionsatz vor ihrer Entwurfszeit wenig anfangen ... jedoch können die Cell als eine spezielle Unterfamilie innerhalb der Power-Architekur (Power.org) betrachtet werden.

MFG Bobo(2008 )
 
Zuletzt bearbeitet:
Das sind ja sogar nur DualCore Opterons!
Wieso nicht gleich Phenoms rein? ;D
 
Wenn, dann kommen K10 Quad Opterons rein.

Fairer wäre aber wirklich, dass dort AMD x68_64 und IBM Cell gemeinsam in der Übersicht stehen.

Und zum Cray, werden die nicht auch mit Opterons befüttert?
 
der platz 1 ist doch aber - ehrlicherweise - augenwischerei...
Die Leistung wird fast vollständig von den Cells erkauft, welche nur durch die Optis gesteuert und mit Daten versorgt werden und daher eher Co-Prozessor sind.
Trotzdem machen sie den großteil der arbeit.

Wäre ja, als wenn man sagen würde, dass der AMtel Q9500X2 (phantasie) der schnellste Prozessor für Folding wäre, nur weil man die Berechnungen insgeheim auf der GPU ausgeführt hat und somit schneller als jeder verfügbare Prozessor ist...

In meinen Augen stimmt das nicht ganz. Es ist eher umgedreht.
Der Cell ist auf keinen Fall Generell Purpose.
Genau wie es von Nvidia dargestellt wird, Host ist die CPU und der Client/Coprozessor die GPU.
Ähnlich ist auch diese Symbiose zwischen den Opterons und Cell zu betrachten.
Cell und der G80/G92/G96 unterstützen nur FP32. Diese Tatsache schließt sie für manche Anwendungen aus.
Wie auch in einer CUDA-Plattform übernimmt die CPU, in diesem Fall der Opteron, das Management. Die Cell's stellen in diesem Fall wohl einen erweiterten extrem Leistungsfähigen Coprozessor dar.

Besser wäre einen Supercomputer mit vielen NVIDIA Quad SLI-Systemen. Jede dieser Karten könnte immerhin theoretisch 12,288 gleichzeitige Threads ausführen.
Und da FP64 auf der Roadmap steht, kann man die Karten bei Bedarf einfach ersetzen.
Viel unkomplizierter als eine CPU.
CPU's braucht man in Zukunft nur noch zum Management und wenn es keinen Code für die Coprozessoren gibt.
Das Ganze ist ja erst seit Stream und CUDA möglich. Nur in Einzelfällen hat dann eine Quadcore einen Geschwindigkeitsvorteil gegenüber einer G92 ff.
 
Zuletzt bearbeitet:
Der Cell besteht aus den "SPE"-Einheiten und der PPE-Einheit, einem recht normalen PowerPC-Kern ...
cell_konzept-aufbau.jpg

Quelle

Der "Cell" kann daher in Teilen als "ganz normaler" Prozessor betrachtet werden ... ist in diesem Falle mit der PPE-Einheit ein "legacy Power PC-Kern" aber dann recht langsam (In Order Microarchitektur).

... Der Cell ist auf keinen Fall Generell Purpose. ...
Doch das ist er, sogar die SPEs sind mit einem umfassenden Instruktionssatz ausgestattet, wenn gleich die SPEs bei skalaren Berechnungen einbricht gegenüber vektoriellen Berechnungen. Um die SPEs auszureizen ist dann die Kunst von Multithread- und Speicher-Programmierung gefragt.

Zum "Cray" der dort einzeln gelistet wird. Das ist ein einziger Rechner dort, der mit Cray-Chips bestückt ist.
Cray hat aber weitaus mehr Systeme in der Supercomputimg-Arena stehen. Das sind die XT3- und XT4-Modelle.

MFG Bobo(2008 )
 
Zuletzt bearbeitet:
In meinen Augen stimmt das nicht ganz. Es ist eher umgedreht.
Der Cell ist auf keinen Fall Generell Purpose.
Genau wie es von Nvidia dargestellt wird, Host ist die CPU und der Client/Coprozessor die GPU.

Das ist richtig, aber ändert nichts daran, dass Cell hier die genannte Linpack-Leistung (und die Leistung für jegliche andere Anwendung, die auf der Maschine laufen wird wohl auch) liefert, nicht die Opterons. Und wenn sich IBM aus irgendeinem Grund für Intel-Hosts entschieden hätte, wäre das Ergebniss ganz genauso ausgefallen, nur dass sich hier sofort jeder intensiv beschwert hätte, wenn es geheißen hätte, Intel führt die Top500-Liste an......;)
 
Der Cell besteht aus den "SPE"-Einheiten und der PPE-Einheit, einem recht normalen PowerPC-Kern ...
cell_konzept-aufbau.jpg

Quelle

Der "Cell" kann daher in Teilen als "ganz normaler" Prozessor betrachtet werden ... ist in diesem Falle mit der PPE-Einheit ein "legacy Power PC-Kern" aber dann recht langsam (In Order Microarchitektur).

Doch das ist er, sogar die SPEs sind mit einem umfassenden Instruktionssatz ausgestattet, wenn gleich die SPEs bei skalaren Berechnungen einbricht gegenüber vektoriellen Berechnungen. Um die SPEs auszureizen ist dann die Kunst von Multithread- und Speicher-Programmierung gefragt.

Zum "Cray" der dort einzeln gelistet wird. Das ist ein einziger Rechner dort, der mit Cray-Chips bestückt ist.
Cray hat aber weitaus mehr Systeme in der Supercomputimg-Arena stehen. Das sind die XT3- und XT4-Modelle.

MFG Bobo(2008 )

Du vergisst aber das der Cell nur FP32 unterstützt. Du sagst es doch selbst, nur in bestimmten Anwendungsbereichen ist der Cell von nutzen. Im FP64-Bereich erreichen 8 SPEs nicht annähernd nicht mal 1/4 eines normalen Intel Quads. Auch ein Dual Opteron ist schneller als ein Cell in diesem Fall. Und wie steht es mit Integer? Da schneiden die Opterons ja ganz gut ab.
Die hohe Zahl von ca. 200 GFlops wird nur im FP32-Modus erreicht.
Das ist doch lächerlich im Vergleich zu dem was Nvidia und Ati in FP32 auf die Beine stellen.
Meine G92 rechnet 3 mal mehr als eine PS3 und verbraucht dabei weniger. Natürlich auch nur im FP32.
Man kann den Cell auf keinen Fall mit dem Power6 Prozessor auf eine Stufe stellen. Denn der Cell hat nur einen abgespeckten Power-Architektur-Teil.
Der Power6 ist Generell Purpose, ein Cell wird es wohl erst als Cell2.
General Purpose heißt für mich, dass man damit jedes beliebige Problem mit dem Cell lösen kann. Ist das wirklich der Fall?
Wo liegt dann die Existenzberechtigung des Power6?
Der Power6 leistet in FP64 ordentliches.
 
Zuletzt bearbeitet:
Du vergisst aber das der Cell nur FP32 unterstützt. ...
Der Cell ist kein reiner Gleitkomma-Coprozessor, er ist mit dem PPE-Kern und in sehr vielen Instruktionen in den SPE-Einheiten auch ein Integerprozessor.

... General Purpose heißt für mich, dass man damit jedes beliebige Problem mit dem Cell lösen kann. Ist das wirklich der Fall? ...
Ja, sonst wäre eine PS3 in diesem Sinne gar nicht möglich.

... Wo liegt dann die Existenzberechtigung des Power6?
Der Power6 leistet in FP64 ordentliches.
Ein General Purpose Prozessor dient nicht nur dafür Gleitkommaoperationen auszuführen.

Spricht man mit Vertretern von IBM, Sun, HP, Intel, AMD, Oracle, dann sind die meisten Anwendungen/Programmbestandteile Integer-Berechnungen (Ganzzahl) und vielfach ausgelegt für skalare Berechnungen.

Der Power6 (und seine Vorgänger) waren zum Zeitpunkt ihrer Einführung auch immer skalare Integer-Monster für die Enterprise-Server dieser Welt. Darüber hinaus hat IBM deutlich an den Krypto- und Virtualisierungsfähigkeiten ihrer Power-Linie gearbeitet.
Das hat der Cell zwar auch schon integriert, aber nicht in der Mächtigkeit vom Power6, oder gar dem z10 (keine Power-Architektur).

Was bei der IBM-Power-Linie dazu kommt, das sind seine System-Interconnects für den Betrieb mit mehreren Power-Prozessoren. Dafür hat IBM den MCM entworfen und sorgt so für eine gewisse Aufrüstbarkeit über eine Prozessorgeneration hinaus.
ibm_z10_multichipmodule.jpg

Quelle.
IBM hat für ihre "Enterprise"-Klasse (Power- und z-Serie) ein Chipträger namens "MCM" ("Multi Chip Module") für mehrere "Prozessorsockel" und L3-Cache/Kryptomodulen.

Was den Cell auszeichnet gegenüber den GPUs dieser Tage, das ist der vergleichsweise schlanke Aufbau. Der Cell ist mit vergleichsweise wenig Transistoren ausgestattet, da keine Einheiten für die klassische Grafikkarten eingebunden sind.

Es stimmt aber, dass der Cell sich in seinen Varianten auch gegen die aktuellen GPUs von AMD, Nvidia erwehren muss, so wie auch klassische Coprozessoren (Clearspeeds, FPGAs) und Vektorprozessoren wie die NEC SX-8-Reihe sich da in der einen und anderen Weise da abgrenzen müssen.

MFG Bobo(2008 )
 
Wie kommt Ihr eigentlich darauf, AMD unter die TOP 500 zu heben, wenn die Mehrheit der im Roadrunner verbauten CPUs CELL-Prozessoren sind und AMDs Opteron lediglich Arbiter- bzw. Sklavenfunktionen übernehmen - also gar nicht wirklich rechnen und sicherlich kaum einen nennenswerten Beitrag zum TFlop-Wert leisten? Das ist mir einfach zu lächerlich.
Im 'Roadrunner' verrichten die General-Purpose-CPUs der Gattung CELL die eigentlichen Rechenaufgaben und wenn ich mich nicht verlesen haben sollte kommt der hohe Gleitkommadurchsatz auch nur bei einfacher Genauigkeit zustande. Ich schätze, daß bei doppelter oder vierfacher Genauigkeit die Rechenleistung immer noch beachtlich sein wird, aber soweit ich weiß kann eine CELL dann in ihren SPEs nicht mehr 'nativ' rechnen, sondern muß zwei Registersätze zu einem zusammenfassen - wie auch immer das gemacht wird. Aber IBM sprach auch schon vor Jahren davon, daß es eine 'größere' CELL geben soll, die mit DP_Registern (oder gar 82 Bit) arbeiten soll. Ich weiß es nicht.
Kollegen haben mit einer PS3 auf CELL-Basis versucht unter Linux zu rechnen, Standford hat es ja vorgemacht. Für relativ 'primitive' FEM Modelle ist die CELL einfach genial schnell. Werden die Modelle komplexer, werden spektrale Methoden angewandt (weil eine geschickte Normierung nicht möglich ist und/oder weil man a priori eine höhere Genauigkeit, sprich DP oder QP benötigt, z.B. Schwerefeldvermessungen, Fusionsprozesse, Bahndynamik, ist die CELL dann nicht mehr so spektakulär - der Aufwand, DP oder QP verwendbar zu machen, relativiert sehr schnell die Gesamtleistung. Wobei die Dinger dann noch immer recht flott sind. Allerdings immer noch weit abgeschlagen VOR AMD (MAD :-)) CPUs.
 
Zurück
Oben Unten