Jaguar bekommt Quad-Core Opterons

pipin

Administrator
Teammitglied
Mitglied seit
16.10.2000
Beiträge
24.365
Renomée
9.689
Standort
East Fishkill, Minga, Xanten
  • SIMAP Race
  • QMC Race
  • RCN Russia
  • Spinhenge ESL
  • Docking@Home
  • BOINC Pentathlon 2019
  • SETI@Home Intel-Race II
  • THOR Challenge 2020
  • BOINC Pentathlon 2021
  • BOINC Pentathlon 2023
Der am Oak Ridge National Laboratory installierte Supercomputer namens Jaguar, wird momentan auf Quad-Core Opterons umgerüstet. Das System belegte auf der letzten Top500-Liste der Supercomputer bereits den siebten Platz und wird nun noch schneller.

Die angestrebte Verdoppelung der Leistung auf 250 TeraFLOPS wird dabei bereits mit einer Umstellung von 84 der insgesamt 124 Einheiten, die jeweils aus 96 Prozessoren bestehen, erreicht. Mit dieser Leistung würde der Jaguar wieder auf die Position zwei der Top500-Liste zurückkehren. Die restlichen 40 Einheiten werden zu einem neuen Supercomputer zusammengefasst, der den Namen Baby Jaguar erhält und etwa 40 TeraFLOPS erreicht.

Von den 84 Einheiten, die für die Umrüstung vorgesehen sind, wurden bereits 16 mit den Opteron Quad-Cores von AMD bestückt. Die restlichen sollen in den nächsten Wochen folgen. Interessanterweise soll es sich dabei um "Budapest" Quad-Core Opterons handeln, die von AMD für Server mit einer CPU-Fassung vorgesehen waren und im Gegensatz zum "Barcelona" HyperTransport 3.0 unterstützen. Die offizielle Vorstellung dieser Prozessoren war ursprünglich für das vierte Quartal 2007 geplant.

<b>Quelle:</b> <a href="http://www.knoxnews.com/news/2008/jan/12/ors-supercomputer-makes-way-for-baby/" target="b"> OR's supercomputer makes way for baby</a>
 
Interessanterweise soll es sich dabei um "Budapest" Quad-Core Opterons handeln, die von AMD für Server mit einer CPU-Fassung vorgesehen waren und im Gegensatz zum "Barcelona" HyperTransport 3.0 unterstützen.

Na ja, Codenamen sind Schall und Rauch. Wenn da mal nicht einfach die Städte verwechselt wurden......

Interessanter wäre, ob das TLB-Bugfreie CPUs sind, oder ob der Bug in der Umgebung nicht auftreten kann (virtualisieren wird man vermutlich beim number-crunchen eher weniger).
 
Das ist sicher das verbuggte Stepping, woher sollten sie auch andere nehmen. Aber da auf der "Kiste" kein Windows läuft, muß man nicht das Problem per BIOS lösen, sondern kann es im Betriebssystem umschiffen, das wird sicher nicht so viel Leistung kosten, nehme ich mal an.
 
Interessanterweise soll es sich dabei um "Budapest" Quad-Core Opterons handeln, die von AMD für Server mit einer CPU-Fassung vorgesehen waren und im Gegensatz zum "Barcelona" HyperTransport 3.0 unterstützen.
Was haben andere Server für einen CPU-Steckplatz? SlotA?

Wird ja so langsam mit AMD und dem Barca.
 
Sockel F mit HT 1.0/2.0 und Sockel F+ mit HT 3.0.
Meine Anmerkung war eher ironisch gemeint. Den richtigen Sachverhalt sollte man eventuell im Artikel nochmals klarstellen.
 
Meine Anmerkung war eher ironisch gemeint. Den richtigen Sachverhalt sollte man eventuell im Artikel nochmals klarstellen.


Kann mir zwar kaum vorstellen, dass man das missverstehen kann, aber ein "mit NUR einer CPU-Fassung" würde wohl helfen.....
 
Sockel F mit HT 1.0/2.0 und Sockel F+ mit HT 3.0.

Wo hast Du vollfunktionsfähige Sockel-F+ Serverboards ausmachen können? 'Barcelona' beherrscht doch erst ab 2009 HT 3.0, nebst vielen anderen guten Sachen zur Steigerung der Leistung.
 
Wo hast Du vollfunktionsfähige Sockel-F+ Serverboards ausmachen können?
Das Tyan S2915-E unterstützt schon einmal Split Voltage. Aber bei HyperTransport 3.0 sieht es mangels dafür erhältlichen Chipsätzen noch dürftig aus. Aber solange noch keine AMD Opteron Prozessoren mit HyperTransport 3.0 Unterstützung in Massen auf dem Markt sind und darüber hinaus von der erhöhten Geschwindigkeitsvorteile aus HyperTransport 3.0 ziehen könnten, besteht eigentlich in der Hinsicht kein Handlungsbedarf. Ein gängiger 16x16 HT2000 Link ist meistens schnell genug.
 
Die angestrebte Verdoppelung der Leistung auf 250 TeraFLOPS ...
Die Leistung wird mit Sicherheit nicht verdoppelt. Gerade bei Numbercrunching-Anwendungen ist die verfügbare RAM-Bandbreite pro Knoten/CPU/Kern/Thread das Bottleneck. Daher arbeitet ja man z.B. beim Blue Gene mit vergleichsweise niedrig getakteten CPUs weil die Mehr-Leistung der Kerne kaum noch was bringen würde.
 
Daher arbeitet ja man z.B. beim Blue Gene mit vergleichsweise niedrig getakteten CPUs...
Ich denke das wird eher daran liegen, dass sich die IBM PowerPC 450 Prozessoren nicht höher takten lassen ohne deutlich mehr zu verbrauchen.
 
Ich denke das wird eher daran liegen, dass sich die IBM PowerPC 450 Prozessoren nicht höher takten lassen ohne deutlich mehr zu verbrauchen.
Ne, es gibt deutlich höher getaktete PPCs, z.B. den POWER6, dessen Kerne mit 4.7GHz takten (die Caches takten aber langsamer). Nur ist es bei den meisten Numbercrunching-Anwendungen so, dass die Working-Sets so groß sind dass diese von keinen Caches abgedeckt werden können; d.h. der limitierenden Faktor meistens der RAM-Zugriff. Da kann man dann direkt die CPUs niedriger takten oder weniger Kerne nehmen - so lange die Bandbreite des RAMs von den Kernen noch ausgelastet wird bleibt die Performance weitgehend gleich.
 
Na ja, Codenamen sind Schall und Rauch. Wenn da mal nicht einfach die Städte verwechselt wurden ...
Nein ziemlich sicher nicht.

Ich denke, es liegt daran, dass Cray "einfache" Opterons für den AM2+ Sockel nutzt.

Allerdings hat Cray ein eigenes Kohärenzprotokoll dafür erdacht. Der systemweite Interconnect wird auch nicht mit dem K10 und HyperTransport 3.0 gebaut, sondern mit dem Seastar 2 und einem Cray-Hochgeschwindigkeitsnetzwerk. HyperTransport 3.0 ist in diesem Fall nur ein einzelner Link ... wenn auch ein sehr schneller.

cray_seastar_fabric_io.jpg

"Seastar: Ein ganz besonderer I/O-Chip für HyperTransport.

Der Seastar ist ein zentraler Datenkommunikationschip, der 6 Hochgeschwindigkeits-Netzwerkverbindungen zu anderen Seastar ermöglicht. Pro Seastar ist ein AMD-Prozessor der K8, oder auch K10 Generation verbunden
."
Quelle

Cray ist so gesehen ein ganz spezieller Torrenza-Kunde der ersten Stunde.

MFG Bobo(2008 )
 
Zuletzt bearbeitet:
Ich denke, es liegt daran, dass Cray "einfache" Opterons für den AM2+ Sockel nutzt.
Allerdings hat Cray ein eigenes Kohärenzprotokoll dafür erdacht. Der systemweite Interconnect wird auch nicht mit dem K10 und HyperTransport 3.0 gebaut, sondern mit dem Seastar 2 und einem Cray-Hochgeschwindigkeitsnetzwerk.
Ich frag mich ob das dann noch eine echte ccNUMA-Architektur ist. Das Problem wäre in diesem Fall einfach, dass die CPUs die im selben physischen Adressraum arbeiten sich gegenseitig für Cachezeilen mit "unbekanntem Aufenthaltsort" mit Snoops an-broadcasten müssten; und das wären im Falle hunderter CPUs sehr viele. Eine Unterstützung für Cache-Dictionaries kennt der Opteron nicht, und die ließe sich auch nicht per Chipsatz nachreichen (höchstens sowas wie ein Snoop-Filter, aber der wäre bei Rechnern in der Größenordnung komplett ineffektiv). Von daher gehe ich mal davon aus, dass die CPUs in unterschiedlichen physischen Adressräumen arbeiten und einfach nur ein sehr schnelles MPI über dieses Seastar-Netwerk machen.
 
Da frage ich mich auch noch.

Allerdings basiert die systemweite Interconnect-Struktur auf den eigenen Cray-Chip Seastar.

Cray bietet dafür (XT5) vier verschiedene Systemmainboards an, die jeweils auch etwas anders angebunden sind.

Ich denke aber schon, dass es sich um "echtes" ccNUMA handelt. Nur eben nicht systemweit mit AMDs HyperTransport-Interconnect.

Einige Knoten im nun nachgerüsteten Jaguar-HPC benutzen aber tatsächlich zwei Opteron-CPUs, so dass Cray womöglich eine Mischbestückung mit Sockel F und AM2+ hat.

MFG Bobo(2008 )
 
Zurück
Oben Unten