AMD mit neuem Server-Sockel G34

Nero24 · 22.07.2008

<div class="newsfloatleft"><a href="http://www.planet3dnow.de/photoplog/index.php?n=2768"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2768" border="1" alt="AMD Server-Sockel G34"></a></div>Wie wir auf Planet 3DNow! bereits mehrfach berichtet haben, wird AMD in den nächsten Jahren nicht nur auf native Multi-Core Prozessoren setzen, sondern - ähnlich wie Intel es die letzten 2 Jahre praktiziert hat - auch <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1208516368">zwei Dies auf ein Gehäuse packen</A>. Hier jedoch aller Voraussicht nach nur im Server-Segment. Der erste auf diese Art und Weise produzierte Prozessor soll der <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1210190514">Sao Paulo</a> werden, im Grunde zwei <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1204648113">Shanghais</A> auf einem Package. Später soll der <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1210190514">Magny-Cours</a> folgen, ein Server-Prozessor mit 12 Kernen, bestehend aus zwei nativen Sechskern-Prozessoren.

Neben Support für DDR3-Speicher sollen die neuen Prozessoren auch einen vierten <a href="http://www.planet3dnow.de/artikel/diverses/ht/index.shtml">HyperTransport-Link</a> bekommen. Wofür, das hat AMD bisher jedoch noch nicht offiziell erklärt. Bei der AMD-Architektur seit dem K8 dienen die HT-Links bekanntlich zum einen dazu, den Prozessor mit der Infrastrukur (Mainboard-Chipsatz) zu verbinden, und zum anderen in Multi-Sockel-Umgebungen die Prozessoren untereinander, was der größte Vorteil der K8+ Architektur ist. So können mehrere Prozessoren auf direktem Wege miteinander kommunizieren ohne Umweg über shared-FSBs und Chipsätze. Das senkt die Latenzzeit bei sog. Node-Hops dramatisch, weswegen die K8+ Architektur in den letzten Jahren insbesondere im 4- und 8-CPU Einsatz sehr beliebt war. Je nach Opteron-Version war bisher entweder nur 1 HT-Link aktiviert (bei Single-Sockel Prozessoren zur Verbindung mit der Infrastruktur), 2 HT-Links (bei Zwei-Sockel Systemen) oder 3 HT-Links (bei Vier- und Acht-Sockel-Systemen).

Wofür AMD nun den vierten HT-Link vorsieht, kann bisher nur spekuliert werden. Die schlüssigste Erklärung dafür wäre, dass AMD den zusätzlichen HT-Link benötigt, um die beiden Dies auf dem Gehäuse miteinander zu verbinden. Die FSB-Lösung wie bei den Intel-Doppel-Die-Prozessoren funktioniert bei AMD <a href="http://www.planet3dnow.de/artikel/hardware/a64/6.shtml">in Ermangelung eines klassischen FSB</a> nicht mehr. Eine weitere mögliche Erklärung wäre, dass AMD den Server-Herstellern die Möglichkeit geben möchte mehr als acht Prozessoren auf ein Mainboard zu bauen. Das allerdings ist eher unwahrscheinlich, da schon die bisherigen Lösungen die 8 möglichen Sockel kaum genutzt haben und sich meist auf 4 Sockel je Mainboard beschränkt haben. Zudem kommen die neuen Opterons bereits mit bis zu 12 Kernen auf einem Prozessor. Bei 8 Sockeln, die schon mit 3 HT-Links möglich sind, wären das bereits 96 Kerne in einem System. Außer für den HPC-Bereich dürfte die Nachfrage nach solch einem System weltweit eher gering sein.

Die dritte Möglichkeit, die derzeit spekuliert wird, wäre, dass AMD den vierten HT-Link für seine Torrenza-Initiative vorsieht. <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1163418301">Torrenza</a> ermöglicht, dass einem Opteron-Prozessor ein spezialisierter Co-Prozessor "angeflanscht" werden kann, auf den der Prozessor bestimmte Aufgaben deligieren kann. Das Konzept erinnert ein wenig an den neuen Supercomputer <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1213095800">Roadrunner</a>. Dieses System ist im Grunde ein Cluster aus Opteron-Prozessoren, wobei jedem Opteron-Kern ein IBM Cell als Co-Prozessor für mathematische Berechnungen zur Seite steht. Bei Roadrunner jedoch musste dies über die Umwege PCI-Express und Infiniband realisiert werden, was in Sachen Latenzen natürlich nicht optimal ist, während Torrenza dies auf direktem Wege ermöglichen soll.

Im Gegensatz zu den derzeit bei AMD üblichen Sockel AM2 und Sockel F wird der Sockel G34 nicht mehr quadratisch, sondern rechteckig ausgelegt. 1974 Pins sollen so Platz finden. Anfang 2010 soll es so weit sein, dann nicht nur mit Dual-Channel Memory-Controller wie derzeit bei den Opteron-Prozessoren, sondern mit Quad-Channel DDR3. Die Details dazu sind auch hier noch nicht publik, aber es ist davon auszugehen, dass einfach die Memory-Controller der beiden Opteron-Dies nach außen geführt werden. 2 mal Dual-Channel je Sockel entspricht einer Quad-Channel Anbindung. Bis zu DDR3-1600 soll so je Channel unterstützt werden, was in einer Speicherbandbreite je Sockel von 51.200 MB/s resuliert.

Links zum Thema:<ul><li><a href="http://www.dailytech.com/Hello+AMD+Socket+G34/article12400.htm" target="_blank">Hello AMD Socket G34</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1213095800">Roadrunner mit AMD-Power erster PFLOPS-Rechner der Welt</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1210190514">AMD Server Roadmap Update</a></li></ul>

mmoses · 22.07.2008

Klingt ja soweit ganz nett ....

.... aber die Kardinalsaufgabe der Grünen für die nächsten zwei Jahre wäre doch wohl die IPC pro Kern 40% zu pushen...

Mmoe

Opteron · 22.07.2008

Also wegen des 4 HTr Links, die wahrscheinlichste Erklärung, die schon länger kursiert ist 1 Hop Abstand bei 4P Systemen. 1 Hop heißt jede CPU im System ist direkt mit jeder andren CPU verbunden. 3 HT Links reichen dafür nicht, zumindest solange man keinen PCIe für I/O on Chip hat.

Und Erbsenzählen muss ich natürlich auch noch ^^

2 HT-Links (bei Zwei-Sockel Systemen) oder 3 HT-Links (bei Vier- und Acht-Sockel-Systemen).

Gibt auch 2P Systeme, die alle 3 HT Links nützen, 2 für I/O, einen für die kohärente Verbindung zu CPU2

Falls sich einer fragt, wieso das jetzt rechteckig ist ... Hans de Vries hat dazu gemeint, dass das die nötigen mainboards layers verringert, da die Pins aus der Mitte einfacher geroutet werden können. Link hab ich leider nicht (mehr), aceshardware ist down (weiß einer wieso ?)

ciao

Alex

sly123 · 22.07.2008

Das ist ja ne riesige CPU, die dann da drauf kommt. Heftig. Da braucht man ja auch ganz neue Kühler, aber beim Server Bereich ja kein Thema. Es könnte aber auch auf den Verbrauchermarkt zukommen (reine Spekulation). *buck*

larsbo · 22.07.2008

Nett, PPro-Form kommt wieder!

Aber das ganze Gerede um den vierten HT-Link........
Schon für den Barcelona war das ja eigentlich angedacht. Selbst in einem Vier-Sockel-System wäre es von Vorteil, weil ja ein Prozessor auch mit der Peripherie verbunden werden muss. Und mit drei HT-Links kann der dann nur noch mit zwei Prozessoren direkt verbunden werden. Damit können nur zwei Prozessoren im System mit allen drei Partnern direkt verbunden werden, zwei Prozessoren im System müssen dagegen beim Kommunizieren untereinander einen Prozessor-Hop machen.

Also, nicht die Frage stellen, warum AMD vier HT-Links einbaut, sondern, warum erst so spät......

Dass man dann natürlich jeden Prozessor im Vierersystem noch an eine wie auch immer geartete HT-Peripherie hängen kann (z.B. Torrenza), ist natürlich ein netter zusätzlicher Effekt.

SPINA · 22.07.2008

Nero24 schrieb:
..., dann nicht nur mit Dual-Channel Memory-Controller wie derzeit bei den Opteron-Prozessoren, sondern mit Quad-Channel DDR3.

Würden sie auf FB-DIMMs setzen kämen sie mit 24 Pins je Kanal (70 Pins insgesamt) statt 72 bei registered DDR3-RAM mit ECC (insgesamt 240 Pins) aus.

Obendrein würden sie mit jedem Kanal eine höhere Bandbreite erzielen und moderne LowVoltage AMB sind längst nicht mehr so stromhungrig.

Stefan Payne · 22.07.2008

Es gibt noch 'ne 4. Möglichkeit:
Der G3X Memory Extender, siehe auch Wikipedia

en.Wikipedia.org schrieb:
The Socket G3 will be accompanied by the Socket G3 Memory Extender (Socket G3MX), for connecting large amounts of memory to a single microprocessor by a G3MX chip placed on the motherboard.

.
EDIT :
.

SPINA schrieb:
Würden sie auf FB-DIMMs setzen kämen sie mit 24 Pins je Kanal (70 Pins insgesamt) statt 72 bei registered DDR3-RAM mit ECC (insgesamt 240 Pins) aus.

Obendrein würden sie mit jedem Kanal eine höhere Bandbreite erzielen und moderne LowVoltage AMB sind längst nicht mehr so stromhungrig.

FB-DIMM hat aber 'ne richtig fiese Latenz, siehe dir mal die Skulltrail Benches an...

'dank' FB-DIMMs liegt das Teil mit einer CPU ziemlich weit hinter einem Desktop System.

p4z1f1st · 22.07.2008

Ich weiß auch nicht was sich alle so an FB-DIMM aufgeilen - ich habe deren Sinn nie ganz verstanden *noahnung*

Opteron · 22.07.2008

p4z1f1st schrieb:
Ich weiß auch nicht was sich alle so an FB-DIMM aufgeilen - ich habe deren Sinn nie ganz verstanden

Pins einsparen, mainboarddesign (layers) vereinfachen ..

ciao

Alex

SPINA · 22.07.2008

p4z1f1st schrieb:
Ich weiß auch nicht was sich alle so an FB-DIMM aufgeilen - ich habe deren Sinn nie ganz verstanden

Man spart ein Layer beim Mainboard ein und es ist ein deutlich größerer Speicherausbau möglich.

288 Chips auf 8 Modulen bei FB-DIMMs statt 72 Chips auf 4 Modulen bei registered DDR3-RAM mit ECC. Je Kanal wohlgemerkt.

[3DC]Payne;3673703 schrieb:
FB-DIMM hat aber 'ne richtig fiese Latenz, siehe dir mal die Skulltrail Benches an...

Ein Tribut an die serielle Übertragungstechnik. Kann man aber auch beim Wechsel von PATA auf SATA oder von PCI auf PCIe beobachten.

larsbo · 22.07.2008

SPINA schrieb:
Ein Tribut an die serielle Übertragungstechnik. Kann man aber auch beim Wechsel von PATA auf SATA oder von PCI auf PCIe beobachten.

Tatsächlich? Leuchtet mir irgendwie nicht ein. Natürlich bringt einem das erste Bit noch nichts, man muss warten, bis auch das achte eines Bytes da ist. Aber wenn das schnell genug geht.....?
.
EDIT :
.

[3DC]Payne;3673703 schrieb:
Es gibt noch 'ne 4. Möglichkeit:
Der G3X Memory Extender, siehe auch Wikipedia

Der soll an einen HyperTransport? Kann ich mir beim besten Willen nicht vorstellen. Wenn stimmt, was in dem Wiki-Artikel steht, auch schwer möglich, oder wo sollen 20 read differential signals herkommen?

SPINA · 22.07.2008

larsbo schrieb:
Tatsächlich? Leuchtet mir irgendwie nicht ein.

Die langen Latenzen bei PCIe sollen übrigens der Grund gewesen sein, warum sich die PCIe Version der SoundBlaster X-Fi solange verzögert hat.

Quelle: http://www.guru3d.com/newsitem.php?id=3005

rkinet · 22.07.2008

sly123 schrieb:
Das ist ja ne riesige CPU, die dann da drauf kommt. Heftig. Da braucht man ja auch ganz neue Kühler, aber beim Server Bereich ja kein Thema. Es könnte aber auch auf den Verbrauchermarkt zukommen (reine Spekulation).

2013 gibts dann wieder einen neuen quadratischen Socket, der doppelt so groß wird wie der G34 = 4* So.F ?!

Bis 2010 dürfte aber auch der Nachfolger von DDR3 schon definiert sein, also noch mehr Bandbreite möglich werden.

Bleibt die Frage, ob nicht lokaler Speicher (ähnlich GDDR5 - 20 GByte/s bei 32 Bit - http://en.wikipedia.org/wiki/GDDR5) mit 1-4 GByte/ CPU-Modul mehr bringt als 4 Channel DRAM.
Da wäre dann kein Cache mehr, sondern Teile des Arbeitsspeichers würden einfach per sehr schnellen DRAM realisiert.

lord_fritte · 22.07.2008

Hat AMD eigentlich noch Geld für so eine Entwicklung?

larsbo · 22.07.2008

SPINA schrieb:
Die langen Latenzen bei PCIe sollen übrigens der Grund gewesen sein, warum sich die PCIe Version der SoundBlaster X-Fi solange verzögert hat.

Quelle: http://www.guru3d.com/newsitem.php?id=3005

Das mag sein, oder auch nicht (ich kenne keine unabhängigen Untersuchungen zum Thema Latenzen bei PCIe). Wobei sich Creative hier ja eher über den unverhältnismäßigen PCIe Protokoll-Overhead bei den vergleichsweise kleinen Datenhäppchen für Audio beklagt.
Aber ich wollte hauptsächlich zum Ausdruck bringen, dass eine serielle Übertragung nicht per se in absoluten Zeiten eine höhere Latenz mit sich bringen muss. Bei dem von Dir genannten Vergleich von Pata zu Sata würde ich das sogar schwer bezweifeln.

rkinet · 22.07.2008

lord_fritte schrieb:
Hat AMD eigentlich noch Geld für so eine Entwicklung?

2010 ... 2011 ... 2012

2010 auf einer AMD-Roadmap läßt auch finanziell viel Zeit bis zur Umsetzung.
Und es wird per DDR3 und Shanghai - Refresh in 45nm doch für 2010 alte Technik für einen neuen Socket definiert.

SPINA · 22.07.2008

larsbo schrieb:
Aber ich wollte hauptsächlich zum Ausdruck bringen, dass eine serielle Übertragung nicht per se in absoluten Zeiten eine höhere Latenz mit sich bringen muss

Das stimmt. Dies sieht man auch schön an HyperTransport oder InfiniBand, aber der Aufwand den man dafür treiben muss ist höher als bei parallelen Bussen.

Was SATA angeht, so denke ich ist dort die Latenzzeit höher als bei PATA. Jedenfalls ist es bei SAS im Verhältnis zu Ultra 160/320 SCSI so.

hendrikhey · 22.07.2008

Mal zum HT-Link...
es kann doch auch sein, dass diese CPUs auch für Swift/Fusio/wieauchimmer genutzt werden und zur Anbindung an die Grafik gedacht sind. Sinnvoll wäre es doch, dies so zu regeln.

zruf · 22.07.2008

Da Swift aber zu Beginn wohl erstmal nur als Dualcore kommen wird und in Serversystemen Grafik sowieso wirklich zweitrangig ist, würde der Mehraufwand für einen integrierten Grafikkern in meinen Augen absolut keinen Sinn machen.

@FB-Dimm-Thematik

Es macht für AMD einfach keinen Sinn das Rad neu zu erfinden um FB-Dimms verbauen zu können. Zum einen lebt der Opteron ja gerade von den niedrigen Latenzen und zum anderen müsste der komplette Memorycontroller neu entwickelt werden, was Ressourcen beanspruchen würde, die AMD derzeit wohl eher nicht hat.

SPINA · 22.07.2008

zruf schrieb:
...und in Serversystemen Grafik sowieso wirklich zweitrangig ist...

Ein integrierter Grafikprozessor hätte den Vorteil, dass er sich mit virtualisieren lassen würde. Das würde gut ins AMD-V/IOMMU Konzept passen.
Ansonsten bringt er aber eher Nachteile mit sich. Man ist nicht mehr so flexibel was neue Shader Models oder Display Port Standards angeht.
Aber da gäbe es im Workstation Bereich dringendere Baustellen, wie eine OnChip Ethernet Schnittstelle, wie sie beispielsweise der Sun UltraSPARC T2 hat.

zruf schrieb:
...zum anderen müsste der komplette Memorycontroller neu entwickelt werden, was Ressourcen beanspruchen würde...

Ursprünglich sollte der Opteron der dritten Generation, also mit Barcelona Kern FB-DIMMs unterstützten, aber diesen Plan hat man alsbald wieder aufgegeben.

Opteron · 22.07.2008

zruf schrieb:
@FB-Dimm-Thematik

Es macht für AMD einfach keinen Sinn das Rad neu zu erfinden um FB-Dimms verbauen zu können. Zum einen lebt der Opteron ja gerade von den niedrigen Latenzen und zum anderen müsste der komplette Memorycontroller neu entwickelt werden, was Ressourcen beanspruchen würde, die AMD derzeit wohl eher nicht hat.

Leider, leider hab ich den Link von ner SuperComputerkonferenz nicht mehr, bei dem ein AMD Techniker sagte, dass der K10 MC auch FBD kann. Als AMD den K10 entwickelte war nicht klar, dass FBD so ein Rohrkrepierer werden würde, deswegen haben sies eingebaut.
Angeblich könne man boards mit K10 & FBD bauen, aber bisher hätte kein Boardhersteller die Spezifikationen verlangt, war die Aussage.

Edit:
Ein andrer Link, aber es bestätigt, dass Barcelona nen FBD Kontroller hat:

On top of this, they changed the northbridge a lot increasing buffers and adding support for new DRAM types. The Barcelona controller will do FBD if necessary, but the chances of you seeing that are something less than zero. AMD also updated the way paging is done and modified the way write bursting happens.

http://www.theinquirer.net/en/inquirer/news/2006/10/11/amd-quad-core-barcelona-laid-bare

Ein weiterer Vorteil von FBD, der immer vergessen wird ist auch das Interface. Der Speicherkontroller braucht nur ne Verbindung zum Advanced Memory Buffer (AMB) Chip. Die Speicherchips dahinter interessieren nicht. D.h. man kann von FBD DDR2 ohne Probleme auf FBD DDR3 aufrüsten ...

ciao

Alex

zruf · 22.07.2008

Ok, dann hab ich das wohl irgendwie schon wieder vergessen oder nicht mitbekommen. Kann ja mal vorkommen.

Ändert aber nix daran, dass FB-Dimm das Problem der Latenzen hat, die ja letztlich die Effizienz des internen Controllers ausmachen.

Opteron · 22.07.2008

zruf schrieb:
Ändert aber nix daran, dass FB-Dimm das Problem der Latenzen hat, die ja letztlich die Effizienz des internen Controllers ausmachen.

Jupp, aber selbst AMD rüstet ja jetzt Cache nach und der K10 Prefetcher ist auch schon ganz gut. Aber egal, FBD hat sich im low-cost Serverbereich Bereich nicht durchgesetzt.

Interessant wirds jetzt mit den langfristigen Auswirkungen .. was bedeutet der Sockel für Bulldozer, dessen 1. Generation sicherlich AMD typisch in den alten Sockel G34 passen wird/soll ?

Heißt das, AMD verbaut dann gleich 4 MCs pro Bulldozer DIE, oder sie bringen wieder eine MCM CPU raus. Nachdem ein einzelner Bulldozer Kern aber sicherlich größer wird als ein K10, wären das dann aber höchsten ~4 Kerne (2x2) insgesamt. Hmm .. wobei, angeblich soll der Bulldozer ja gleich in 32nm kommen ...

Naja abwarten.

ciao

Alex

Creskra · 22.07.2008

hendrikhey schrieb:
Mal zum HT-Link...
es kann doch auch sein, dass diese CPUs auch für Swift/Fusio/wieauchimmer genutzt werden und zur Anbindung an die Grafik gedacht sind. Sinnvoll wäre es doch, dies so zu regeln.

Integrierte Grafikkarten für Server? das wäre in meinen Augen totaler Schwachsinn. Dann hab ich auf einmal in einem vier Sockel System 4 Grakas die Strom fressen und zum Bilder erzeugen brauch ich doch nur eine.

CrossfireX über 4Prozessorkerne hinweg! LOL

Swift/Fusio wir wohl eine vollkommen eigenständige Entwicklung. Ich kann mir nicht vorstellen das AMD die dafür gebrauchten Schnittstellen in Cores einbaut die auf Standard-Desktopsystemen und in Servern laufen sollen.

Gruß
Cres

Opteron · 22.07.2008

Creskra schrieb:
Integrierte Grafikkarten für Server? das wäre in meinen Augen totaler Schwachsinn. Dann hab ich auf einmal in einem vier Sockel System 4 Grakas die Strom fressen und zum Bilder erzeugen brauch ich doch nur eine.

So ne GPU kann auch Berechnungen durchführen

Allerdings sind die ersten Fusion CPUs nicht fürs Serversegment geplant, im Gegenteil, die haben nur eine PCIe Schnittstelle für den Chipsatz, sonst nix.

ciao

Alex

AMD mit neuem Server-Sockel G34

Administrator

Admiral Special

Redaktion☆☆☆☆☆☆

Captain Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Vice Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Commodore Special

Lieutnant

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Lieutnant

Redaktion☆☆☆☆☆☆

Commodore Special

Redaktion☆☆☆☆☆☆

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆