Opteron+ == K8L, K10 sehr verspätet oder tot?

mocad_tom · 03.11.2005

Hier also nun Neuigkeiten über die AMD-Entwicklerteams:

http://www.the-inquirer.com/?article=27421

Der K8L wird ein Quad-Core.

Spekulatius:
Dieser 8-Core-Chip könnte ein MCM werden.

>Like the horrendously complex eight issue K9 before it...

Welche Vokabeln wurden damals für den Power5 aus dem Hut gezogen - Monsterwuchs?

Grüße,
Tom

OBrian · 03.11.2005

Klingt zwar nicht gut, daß der K10 gestrichen wurde, aber ob das tatsächlich so ist, kann ich nicht mal ansatzweise beurteilen. Gibt es denn eigentlich mehr Infos/Gerüchte zum K10 als nur die Bezeichnung?

Auf jeden Fall ist die momentane Architektur ziemlich gut skalierbar, sie hat noch gewisse Taktreserven und läßt sich gut auf mehrere Cores verbreitern. Von daher kann sich AMD damit noch eine ganze Weile gut positionieren.

Aber auf längere Sicht ist wohl nicht ganz klar, ob man mit wenigen starken Cores oder besser vielen weniger komplexen besser klarkommt oder gar sowas wie den Cell mit unterschiedlichen Einheiten auch im Desktopbereich gut verwenden kann.

rkinet · 03.11.2005

Ziemlich wüste Gerüchte von The Inquirer.

AMD hat erst auf der letzen Analystentagung für 2007 neue Core / mehr Cache angekündigt, wobei diese sehr wahrtscheinlich dann die ersten 65nm Entwicklungen sind.
Dazu gehört dann auch DDR-III oder DDR-II /-III Kombikontroller.

Im Rahmen der Pacifica-Weiterentwicklung (27.10.2005 / http://tecchannel.de/technologie/prozessoren/432777/index7.html) sind auch Weiterentwicklunges des Cores schon umschrieben, speziell im Zusammenhang mit dem Update von Pazifica.
Das erscheint alles schon sehr weit entwickelt zu sein.

Als Zukunftsmusik hat AMD aber die Implementierung von Co-Prozessoren angekündigt.
Vielleicht war/ist dies das ominöse 'K10-Projekt'.
Im Core selbst kann ich mir nur die optimierte Implementierung virueller CPUs vorstellen. Dann würde es auch Sinn machen, von 3 auf 4 parallele Units 8s. Merom /Conroe) zu wechseln.

Fazit: Bei AMD erscheint alles in einem ungestörten Fluß zu sein, wobei man vs. Intel bei der Virtualisierung schon die Nase vorne hat (s. Link zu Pazifica)

Opteron · 03.11.2005

mocad_tom schrieb:
Hier also nun Neuigkeiten über die AMD-Entwicklerteams:

http://www.the-inquirer.com/?article=27421

Der K8L wird ein Quad-Core.

Spekulatius:
Dieser 8-Core-Chip könnte ein MCM werden.

Was jetzt ? 4 oder 8 cores ?

Alles irgendwie verworren, kann mich noch an die Meldung erinnern, dass der K9 gestrichen wurde und durch den K10 ersetzt wird. So jetzt ist der K10 gestrichen, aber diesmal ist kein K11 in Sicht

Naja aber nachdem jetzt langsam die multithreading Software-Maschinerie angespringt, macht es vielleicht mehr Sinn einfach die aktuellen cores zu vervielfältigen, als was komplett Neues zu entwickeln.
Das das gut geht, zeigt ja Intel, der PentiumPro wurde 1995 vorgestellt und mit dem Pentium M quasi immer noch auf dem Markt.

So gesehen wird es langweilig im CPU Bereich, die Neuerungen der nächsten Zeit sind nur dual-quad-octo cores plus ein paar kleinere Änderungen wie SSE4, HTr3 usw ...

ciao

Alex

mtb][sledgehammer · 03.11.2005

Ich sehe es auch so: bislang wurde ja eigentlich nie genau gesagt, was nun K9 K10 oder sonstige Chips genau bringen. Das offizielleste ist eben das:

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2565

und dabei nicht wirklich veraltet. Eben ein wenig "verschwommen". Aber zumindest die Richtung ist klar vorgegeben: Multi-Core hat Priorität und wirkliche Erweiterungen des Cores sind eher für einen späteren Zeitraum vorgesehen.

Und ganz ehrlich: ich denke es ist positiver wenn AMD ein Projekt absagt und nicht wie Intel versucht ein schlechtes Produkt mit aller marketingtechnischer und technischer Gewalt auf den Markt zu bringen.

Hans Fuchs · 03.11.2005

Das ist Quark!
AMD wird jetzt an der K8 und K9 forschen und entwickeln. Die K10 giebt es nur alls Grob um rizenen Plan, wo alles rein kommt was in die K9 nicht mehr rein passt oder was sich noch nicht um setzen lest.
2007 soll die K9 kommen, da kommt die K10 nicht vor 2011/12

PS
Ich scheib jetzt auch mal in ergend ein Forum das der K11 zu gunzten des K12 gestrichen wird. Den Link hau ich dan hier ins Forum und schon haben wir eine super spekulations Thema.

pipin · 03.11.2005

afaik wurde der K9 gestrichen, da der in Richtung Netburst Architektur gehen sollte, was AMD aber wohl schon lange lange vor Intel erkannt hat, dass das nichts taugt.

Zum K10 gab es meines Wissens nie was essentiell konkretes. *noahnung*

Wie Hans schon richtig bemerkt ne schoene typische Inquirermeldung.

mocad_tom · 03.11.2005

Ich bin ja auch ein Vertreter der moderaten Änderungen.
In diesem K7/K8-Kern steckt nun schon so viel Tweaking, so viele Mannjahre, so viele Steppings.
Man hat ja die wohltuenden Eingriffe in die L2-Cache-Latenz gesehen beim Shrink von 130 auf 90nm.
Und hier lässt sich evtl. beim Shrink auf 65nm wieder etwas optimieren.
Kleiner Eingriff - große Wirkung.

Es sind ja schon vage Vermutungen bezüglich L0-Cache gekommen, grössere Umbauten des Kerns. Ich sehe in diesen Core-Teams eher die Rolle von Konzept-Studien wie man sie auf der IAA sieht - Fingerübungen, Patente rechtzeitig abstecken. Allerdings sehe ich eine zu frühe Auflösung dieser Teams als spielen im Sandkasten.

http://www.anandtech.com/IT/showdoc.aspx?i=2447&p=7

Branch prediction penalties, due to the longer pipeline of Nocona/Irwindale, are not the problem. We noticed with Vtune and Code Analyst that the Branch Prediction Unit of the Xeon Nocona and Irwindale does a marvellous job and predicts between 96% (MySQL) and 97% (DB2) of the branches correctly, while the Opteron's BPU is about 93% and 94% correct of the time. MySQL consists of 20% branches, and DB2 has only 16% branches. The L2-caches also do a good job with only 2% of data demands being covered by the RAM, and a 98% hitrate on the L1 and L2-caches.

Auch die Branch Prediction und Prefetching sind Bereiche wo man nachhaken kann - auch wenn es eine echt langweilige Diskussion wäre. 2MB-L2-Cache alleine können hier auch schon ein bisschen richten. Auch von L3-Cache ist bereits gesprochen worden.

AMD64 wird jetzt dann erst noch richtig greifen - mit der Einführung von Win Vista.
Dual-Core wird erst durchschlagen mit ausgereiften GraKa-Treibern.

An der Takt-Schraube kann gedreht werden. Demnächst soll ein Opteron 875 HE 2,2GHz mit 2x1MB L2 mit 55W erscheinen. Man sieht also, da ist Luft drin.

Multi-Core schön und gut(für Server ist AMD hervorragend aufgestellt) nur bringt es nicht allzu viel für die Gamer.
Meiner Ansicht nach müssen sie diese Front jetzt dann wieder stärken.
Allein die Taktschraube wird sich auch nicht immer bemühen lassen.

Bei der XBox360 hat man besonderen Wert auf einen reibunglosen Abgleich zw. CPU-Cache und GPU-Core gelegt. Cache-Bereiche lassen sich umswitchen in einen "Local Storage" hier könnte ich mir Bewegung vorstellen - siehe hier:
http://arstechnica.com/articles/paedia/cpu/xbox360-1.ars/5

Die GPU läuft der CPU weiter den Rang ab - siehe hier:
http://www.extremetech.com/article2/0,1697,1880749,00.asp
http://www.havok.com/content/view/187/77/

wichtig ist es allerdings die GPU richtig in Szene zu setzen.

Grüße,
Tom

mocad_tom · 04.11.2005

AMD ist auf der Serverseite hervorragend aufgestellt:

http://www.itjungle.com/tlb/tlb102505-story02.html

In fact, one of the interesting things that will be shown at the Supercomputing 2005 HPC industry show in Seattle, Wash., in mid-November is a 16-socket, dual core Horus-based server. Norton says that a 32-socket machine is up and running in the Newisys labs in Austin, Texas, with an early rev of the Horus chipset.....

....While he can't come out and say this, it is no coincidence that Horus will be ready to rock when the Opteron Rev F chips--these are the ones that support DDR2 main memory, possibly 1.2 GHz or 1.4 GHz bi-directional HyperTransport buses

Sockel F nun doch mit DDR2 und nicht mit FB-DIMM - glaub ich nicht *nono*

Gibt es überhaupt eine Rev. F für Opteron in der Form wie es eine Rev. F für A64 gibt?

Den letzten Refresh, den der S940-Chip jetzt noch bekommt ist Pacifica+Presidio.

Meiner Meinung nach wird der Sockel 940 noch solange mit Dual-Core-Opterons beliefert, bis der Sockel F + Quad-Core K8L fertig ist.

Und hier fängt bei mir der Argumentationsbogen an.
Der Horus wird nicht eine Plattform(Sockel 940) unterstützen, die gerade die letzten Speed-Upgrades erhält.

Also ich rechne felsenfest mit einem Sockel-F-Horus-System auf der Supercomputing 2005. In einem System mit 32 Sockeln, bestückt mit einem Opteron+ mit 8 Kernen ergibt sich die wahnsinnige Anzahl von 256 Kernen in einem ccNUMA-Verbund.

Hierzu passt auch die Aussage von Phil Hester:
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2565

In the next year or so AMD plans on truly showcasing the scalability of their Opteron architecture by providing platforms with support for up to 32-socket configurations, truly stressing the scalability of AMD's Direct Connect architecture.

Hier noch eine der handfestesten AMD-Aussagen dieses Jahres - ich sehe es fast als eine Drohung an die Konkurrenz - ausserdem steckt es ziemlich konsequent den Zeitrahmen ab.
http://www.heise.de/newsticker/result.xhtml?url=/newsticker/meldung/58859&words=dual Opteron Dual

AMD-Chef Hector Ruiz:"Heute bringen wir zum zweiten Geburtstag des Opteron-Prozessors einen Zweifach-Prozessor, was werden wir wohl zu seinem vierten Geburtstag präsentieren?"

Grüße,
Tom

Bokill · 05.11.2005

Wäre mal schön auch mal Kernaussagen in das Gedächtnis zurückzurufen ...

Im Frühjahr hatte AMD ein eindeutiges Bekenntnis bei einer Embedded-Veranstaltung gegeben. 5 Jahre Lieferbarkeit von Opterons (Embedded). Da erst ab da an die ersten Sockel 939 Opterons vorsichtig über den Tellerrand schauten, wird uns der Sockel 940/939 noch ziemlich lange erhalten bleiben ... wenn auch nicht unbedingt als Konsumersockel.

So ziemlich das gleiche macht derzeit der K7 durch, der wird jetzt noch als aktuelle Lösung für Embeddedlösungen verkauft (war in der Woche eine Meldung von AMD-Board [AMDboard.com/Orthy.de] zu dem NX-Geode und dem SIS Chipsatz SiS741GX dazu).

Hier noch mal eine 6 Monate alte Meldung dazu -> Aktuelles Geode NX SIS 741CX Sockel A Board (Embedded) [Athlon.de] sowie der Meldung dazu -> Investitionen.Top Halbleiterhersteller 2005

... Von der anderen Seite (Embedded) kann noch spannendes erwartet werden. Denn der Opteron soll auch dort eingesetzt werden. Die EE-Serie verspricht da einiges. In wie weit aber die K8 Architektur in die Geodelinie eingebunden wird, ist mit der AMD-Meldungvom 8.3.2005 noch unklar

[Athlon.de].

In so fern steht der Opteron noch am Anfang seiner Karriere als Embedded-CPU ... mit anderen Worten: Der jetzige Opteron wird uns noch lange begleiten. Seine Multicoregenossen werden ähnliche Laufzeiten haben, wenn sie gefragt sein werden sollten.

MFG Bobo(2005)

mocad_tom · 05.11.2005

Ich habe mich vielleicht etwas missverständlich ausgedrückt.

Natürlich wird der Optern-S940 noch weiter produziert und weiterverkauft, nur werden keine weiteren Taktsprünge(jenseits der 3GHz), Shrinks, Features etc. dazukommen.

Der Sockel940 ist momentan 2,5 Jahre alt, er hat alle Erwartungen erfüllt, bandbreitenmäßig bietet er immer noch genug(Intel bietet mit dem S771 immer noch weniger Bandbreite) - allerdings wird er gegen Ende nächsten Jahres einen

sehr viel größeren Bruder

erhalten - und ich kann mir nicht vorstellen, das AMD für beide Server-Sockel die gleiche Bandbreite an Prozessoren bringen wird.

Ein Quadcore macht für Sockel 940 keinen Sinn, ausserdem wird auch ein 3,X GHz Dual-Opteron mit Dual-Channel-DDR400 irgendwann mal verhungern.

Da die Validierung für Server-Systeme dann doch sehr viel Zeit in anspruch nimmt glaube ich nicht, das auf der Supercomputing 2005 ein System vorgestellt wird, welches nach Fertigstellung auf einen Prozessor basiert, der nur noch zwei oder drei Speed-Upgrades bekommt - deshalb Sockel F.

Und weil AMD in ihrer Server-Sockel-Politik sehr weitsichtig arbeitet glaube ich, das man mit einer Riesenüberraschung zu rechnen hat.

Ich erinnere blos nochmal an die Herbst-IDF 2004

http://www.heise.de/newsticker/result.xhtml?url=/newsticker/meldung/50744&words=IDF HP Opteron

Grüße,
Tom

mocad_tom · 06.11.2005

Einmal Analysten-Konferenz im Juni:
http://epscontest.com/presentations/05q2_analyst-day.htm?slide=57&a

Und die Ziele, wie sie Phil Hester vorsieht:

Code:

Now			Coming Soon		Future Goals  
AMD64 Architecture		Extensions to AMD64 FPU	Extensions to AMD64 
Dual Core Architecture	Multi-Core Architecture	Throughput Architecture  
Direct Connect Architecture	Scalable SMP Architecture	On-chip Coprocessors  
Enhanced Virus Protection	Pacifica Virtulization		Secure Execution  
HyperTransport 1.0 and 2.0	HyperTransport 3.0		HyperTransport 4.0  
DDR, DDR2		DDR3, FBDIMM		DDR4, FBD2  
AMD PowerNow! Technology	Partitioned AMD PowerNow!	System Resource Management  
High Reliability RAS 		Mainframe-class Reliability 	Best-in-class Reliability  
System Performance		System Performance per Watt	Throughput per Watt per Dollar

Hier kann man sich schon in etwa das Erscheinen von FB-DIMM(und Sockel F) zusammenreimen.

Über das lästige Validieren:
http://www.the-inquirer.com/?article=27476
Intel hat ein praktisch fertiges Serversystem, kann es aber noch nicht freigeben, weil noch kleinere Bugs möglich wären.
>Don't run a hospital or nuclear plant on them, OK?
Dabei hat Intel aber schon seit Juni ein laufendes S771-System:
http://www.heise.de/newsticker/meldung/60219

Deshalb validiert Newisys sein Horus-System auch mit dem Sockel F.

Grüße,
Tom

rkinet · 07.11.2005

mocad_tom schrieb:
Natürlich wird der Optern-S940 noch weiter produziert und weiterverkauft, nur werden keine weiteren Taktsprünge(jenseits der 3GHz), Shrinks, Features etc. dazukommen.

Ein Quadcore macht für Sockel 940 keinen Sinn, ausserdem wird auch ein 3,X GHz Dual-Opteron mit Dual-Channel-DDR400 irgendwann mal verhungern.

AMD hat aber das Stepping 'E6' / Opteron für min 5 Jahre Verfügbarkeit angekündigt.
Was per per Fab30 leicht erledigt werden.

Außerdem will AMD früh in 2006 auf Pazifica umsteigen was gerade für Server interessant ist. Socket 1207 wird aber noch nicht früh verfügbar sein.
Daher sollte das 90nm Stepping 'F' mit Pazifica auf beim Opteron kommen, was aber automatisch einen DDR-I // DDR-II Kombicontroller ergibt.
Lt. Plan soll 2007 ein neuer (65nm) Core kommen, der aber durchaus DDR-I/-II/-III gleichzeitig beherrschen kann (DRR-II/-III sind elektrisch für die CPU eh sehr ähnlich).
Dieser Shrink könnte auch für deon So.940 Opteron kommen und dann Stepping 'F' dort ersetzen. Die Socket 940 Besitzer könnten dann 2007 entweder 'E6-Designs nachlaufen oder eben 65nm Designs.

Quad-Core und bei neuen Servern hingegen wäre So.1207 die ersten Wahl.
Es gibt aber keinen Grund, daß AMD die So.940 CPUs einfach auslaufen läßt.
Im Budget-Bereich reichen die Leistungen noch viele Jahre und nur das CPU / DRAM-Upgade erscheint nötig. Neue Designs dürften ab Mitte 2006 damit nicht mehr erstellt werden und die OEMs dürften auch keine entsprechenden Server mehr fertigen. Aber die vorhandenen werden sicherlich länger genutzt und das ist ein lukrativer Upgrade-Markt für AMD. Für 65nm Shrinks auf So.940 müßte AMD auch keinen solangen Liefermöglicherkeiten mehr zusagen. Der wäre 2007 eh nur ein Upgradeprodukt und nach 2-3 Jahren würde niemand mehr eine So.940 Server noch aufrüsten wollen.

Meiner Meinung nach, wird AMD den So.940 nach Kundenwunsch weiter laufen lassen, auch mit aktuellen CPU-Cores. Für AMD ist es wirtschaftlich egal, ob ein Kunden einen neuen Server mit So.1207 CPU kauft oder ein alter So.940 aufgerüstet wird.
Für OEMs könnte dies auch egal sein.
Wenn z.B. ein SUN-Kunde 2007 seinen alten Server noch für gut Geld weiter verkaufen kann (weil er eben noch einige Jahre unterstützt wird von neune AMD) kauft er sich eher einen Neue bei SUN. Hoher Gebrauchtpreise = Langlebigkeit der Produkte machen auch hochpreisige Käufe wiortschaftlich sinnvoll. Man kennt sowas aus der Automobilbranche, wo geringer Wertverlust der Gebrauchten einen rel. hohen Verkaufspreis der Neuen ermöglicht (=gute Margen möglich).

Auch ist es ja gerade der Vorteil des Opteron, daß er bzgl. Chipsatz sehr frei ist und man seine Lebensdauer nicht mit diesem koppeln muss. Intel hingegen hat ein starres Tandem aus beiden und kann deren Entwicklung nur begrenzt zeitversetzt am Markt plazieren.
Ein 65nm würde also auch noch mit einem betagten Chipsatz noch laufen, was bei vielen Anwendungen kein Problem ist. Aber z.B. 2008 eine 2* 3 GHz CPU mit L3-Cache und Pazifica (2) auf einem 2005er Server nachzurüsten erscheint sinnvoll.

mocad_tom · 07.11.2005

Aber zwischen DDR1 und FB-DIMM passt im Server-Segment kein Sockel für DDR2 - basta.

Zumal Intel höchstselbst es nicht erwarten kann im Server-Segment von DDR2 weg zu kommen - nicht all zu großer Speicherausbau, erst mit PC2-667 erste Vorteile gegenüber DDR1, Probleme mit dem Layout bei zu vielen Speicherbänken.

Meiner Meinung nach wird es auch keinen weiteren Shrink für Sockel940-Cpus geben.
Die schnellste CPU im aktuellen S940 wird wohl ein Dual-Opteron mit Pacifica & Presidio und max. 3,2GHz(das wäre dann ein Opteron 895) - dann ist Ende im Gelände.

Sockel F + Quad-Core Opteron+ im Q4/06 wird eine Woche vor dem Intel Cloverton auf den Markt geworfen - ich ziehe den Thread dann wieder hoch, wenn es dann so weit ist

- und all das wird auf der Supercomputing 2005 verkündet.

Grüße,
Tom

rkinet · 08.11.2005

mocad_tom schrieb:
Aber zwischen DDR1 und FB-DIMM passt im Server-Segment kein Sockel für DDR2 - basta.

Zumal Intel höchstselbst es nicht erwarten kann im Server-Segment von DDR2 weg zu kommen - nicht all zu großer Speicherausbau, erst mit PC2-667 erste Vorteile gegenüber DDR1, Probleme mit dem Layout bei zu vielen Speicherbänken.

Meiner Meinung nach wird es auch keinen weiteren Shrink für Sockel940-Cpus geben.
Die schnellste CPU im aktuellen S940 wird wohl ein Dual-Opteron mit Pacifica & Presidio und max. 3,2GHz(das wäre dann ein Opteron 895) - dann ist Ende im Gelände.

http://tecchannel.de/server/hardware/432957/index12.html

Erster Test! Xeon 5000 Dempsey mit FB-DIMM

Allerdings ist der Durchsatz mangels Chipsatz-Treiber noch moderat, allerdings scheint der random access gut zu liegen. Vorteil bei Intel jetz die 4 statt 2 DRAM-Kanäle, die die Cores direkt ansteuern können.

FB-DIMM hat lt. AMD das gleiche Problem wie PCIe - der zusätzliche Stromverbrauch.
DDR-II und DDR-III pur erscheinen da besser. Auch gibt es bereits DDR-II reg. Module.

Wenn AMD beim 1207 auf 4-Channel geht (was für Quad-Core ff. sinnvoll wäre) hätten wir immerhin entweder 4 oder 8 DRAM-Module direkt an die jeweilige CPU angebunden.
Das reicht, speziell da ja per HTr (trotz zukünftig schneller) ja auch nur begrenzt eine Durchsatz möglich ist.
Beim Vergleich 1207 zu Dempsey hätten wir ja 4 * 2 (Socket) = 8 Riegel parallel im Einsatz, während Intel nur 4 Stück parallel bieten kann. Aktuell bei So.940 ist Gleichstand vorhanden.

Bzgl. Zukunft vom So.940:
Ich bleibe dabei, das Design ist auch angesichts der Performance vom Dempsey nicht wirklich veraltet. AMD hat finanziell nichts davon, die 940er Kunden noch Jahre lang nur mit 90nm Ersatz-CPUs zu beliefern.

---
aus: http://tweakers.net/nieuws/39753
bzw.: http://www.channelregister.co.uk/2005/11/08/amd_socket_f_spied/

Socket F = 1206 (nicht 1207) mit DDR-II 533/667/800
größer unter: http://img259.imageshack.us/img259/3060/0032cd.jpg

Bokill · 08.11.2005

rkinet schrieb:
http://tecchannel.de/server/hardware/432957/index12.html ... Wenn AMD beim 1207 auf 4-Channel geht (was für Quad-Core ff. sinnvoll wäre) hätten wir immerhin entweder 4 oder 8 DRAM-Module direkt an die jeweilige CPU angebunden.
Das reicht, speziell da ja per HTr (trotz zukünftig schneller) ja auch nur begrenzt eine Durchsatz möglich ist. ...

Was hat HyperTransport damit zu schaffen? In wie weit limitiert der jetzige HyperTransport zuküftige K8 Multicoredesigns?

Du vergisst, dass der Engpass der Speicher ist, nicht der Systeminterconnect HTr.

Zudem werden die Prozessoren vom Dual-Core K8 eben nicht über den HyperTransport angebunden, sondern über die SRQ [bitte P3D Suchmaschine nutzen!!!]. Bei 4 Kernen könnte die Bandbreite in der SRQ immer noch auseichen.

Latenzen sind da eher der limitierende Faktor ... wie auch bei diesen speziellen Systemschnittstellen generell (vergleichbar den Fabrics) dieser Machart weniger Bandbreite, als Latenz der limitierende Faktor ist.

Bzgl. Zukunft vom So.940:
... AMD hat finanziell nichts davon, die 940er Kunden noch Jahre lang nur mit 90nm Ersatz-CPUs zu beliefern.

Ich denke der Sockel 940 wird uns sehr lange noch erhalten bleiben. Langfristig wird eben der maximale Strimverbrauch der limitierende Faktor sein, da muss das Brandaktuelle eben auf anderen Sockeln kommen.

MFG Bobo(2005)

rkinet · 08.11.2005

Bokill schrieb:
Was hat HyperTransport damit zu schaffen? In wie weit limitiert der jetzige HyperTransport zuküftige K8 Multicoredesigns?

Du vergisst, dass der Engpass der Speicher ist, nicht der Systeminterconnect HTr.

Es geht um min. zwei Socket F auf einem Board (Single-Socket Designs / Opteron 1xx ist ja auf So.939 / M2 gewandert).
Minimum hätten wir dann bei einem Quad-Core ein Dual-Socket Designs, also 8 Cores.
Jeder Quad-Core könnte aber Daten aus dem jeweils benachbarten Quad-Core benötigen, was entsprechende bandbreite beim HTr erfordert.

Ein 32 Bit HTr V2.0 käme da auf (Takt = 1,4 GHz) 2* 11,2 GByte/s,
4-Channel DDR-II 667 hat 1* 21,3 GByte/s (brutto, netto vielleicht 18 GByte/s).

Das reicht für eine Socket <-> Socket Verbindung bei wechseitigen, symmetrischen Anfragen der beiden Sockets, sonst drosselt es.
Bei 16 Bit HTr und 1 GHz wären es nur noch 2*4 Gbyte/s vs. 21,3 GByte/s.

Wie man sieht würde DDR-III dann doch ein HTr V3.0 ab 2007 sinnvoll erscheinen lassen; AMD hat dies aber schon auf der Roadmap.

Zu Latenzzeit: Ist halb richtig.
Mit 4 Channel DRAM hat man die gleiche Latenzzeit (vs. 2-Channel), aber man benötigt dann doch nur 1/2 der Zeit zum Transfer in/aus dem Core.
Bei 4 Cores dürften fast permanent DRAM-Zugriffe nötig werden (ok, je nach Software), da sind zügige Transfers sinnvoll.
Einen 4-Channel Socket F könnte man sicherlich auch nur mit 2* DRAM bestücken, was vielleicht bei Dual-Core kaum Performane Nachteile bringt. Ein Dual-Socket F Design könnte also mit 4 Riegeln auskommen - wie heute. Dafür aber max. 16 Riegel aufnehmen, das geht heute bei Socket 940 nicht.

mocad_tom · 08.11.2005

> http://tweakers.net/nieuws/39753

Können die nicht einen etwas grösseren Ausschnitt von dem Mainboard abfotografieren?
Wenn das mit DDR2 anstatt FB-DIMM stimmt - dann habe ich voll daneben spekuliert.

Zumindest ist der Sockel F schon so weit, das er mit der Vorstellung von Horus zu sehen ist - 256 Kerne

Zum Dempsey - nicht mal schlecht, ein 65nm-Dual-Core mit 3,46GHz, bei anständiger Speicheranbindung - nur wird es die Kisten erst ende Februar geben.

Grüße,
Tom

Bokill · 08.11.2005

Ein 32 Bit HTr V2.0 käme da auf (Takt = 1,4 GHz) 2* 11,2 GByte/s,
4-Channel DDR-II 667 hat 1* 21,3 GByte/s (brutto, netto vielleicht 18 GByte/s).

1. Was hat das mit der SRQ zu tun?

2. Was hat die SRQ mit HTr zu tun?

3. Hast du mal gesucht was es mit der SRQ auf sich hat?

4. Schon mal Benches mit extrem gedrosseltem HTr gesehen, das hat so gut wie keinen Einfluss auf die Leistung ---> Fazit: Alle Milchmädchenrechnungen, die lediglich Bandbreite berücksichtigen, die übersehen die Latenzen!

Eine 2 Sockel-Lösung mag mit 2 Opterons mag zwar eine deutlich breitere Bandbreite haben, sie wird aber aufgefressen durch höhere Latenzen für die CPU-Kommunikation zwischen den beiden Sockeln.

Das reicht für eine Socket <-> Socket Verbindung bei wechseitigen, symmetrischen Anfragen der beiden Sockets, sonst drosselt es.
Bei 16 Bit HTr und 1 GHz wären es nur noch 2*4 Gbyte/s vs. 21,3 GByte/s.

Schon mal Benches mit extrem niedrigen HTr-Takt gesehen? Nein? -> unterschiedliche HT-Link-Taktung [hardwareluxx.de]

Ars Technika hat ein Mantra ... CPU-Entwicklung hat ein Mantra, es ist das Verdecken von Latenzen, bzw. Latenzen verbessern ... praktisch alle Architekturartikel von Hannibal Stoke kehren immer wieder auf das Thema "Verdecken der Latenzen" zurück.

AMD hat genau diesen Weg der verbesserten Latenzen in den Designentscheidungen mit dem K8 schon sehr früh angepackt. Hoher Takt und viel Cache ist nun mal nicht immer der billigste Weg dieses zu verbessern.

MFG Bobo(2005)

mocad_tom · 08.11.2005

rkinet hat recht :-X

zu finden hier: http://www.realworldtech.com/page.cfm?ArticleID=RWT120104202353&p=3

Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:

CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3

Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.

Grüße,
Tom

Opteron · 09.11.2005

mocad_tom schrieb:
(...)
Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:

CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3

Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.

Grüße,
Tom

Ur-Problem sind dabei aber die Hops. Bei 4 CPUs ist ja noch schön jede CPU mit jeder andren verbunden, da ists egal, wenn irgendwelche CPU was von ner andren braucht, gibt ja direkte Verbindungen, aber bei >4 CPUs wird es dann problematisch.

Ändert sich vielleicht, falls AMD mehr HTr Links beim Sockel F einführt, dann würde es "weiter" skalieren. Aber die Gerüchteküche brodelt ja in Richtung PCI-E. Gibts dazu eigentlich was Neues, Stichhaltigeres ?

ciao

Alex

P.S: Nachdem ja Intel einen "offiziellen" Test von System, die 2006 erhältlich sind, zugelassen hat, um anscheinend ein paar Käufer zum Warten zu überredem, haben wir vielleicht Glück und AMD läßt sowas auch zu. Ein paar Stück 65nm Opteron 890 (oder so) Sampels wirds hoffentlich schon geben

Lustig wäre es allemal.

Bokill · 09.11.2005

mocad_tom schrieb:
rkinet hat recht

zu finden hier: http://www.realworldtech.com/page.cfm?ArticleID=RWT120104202353&p=3

Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:

CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3

Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.

Grüße,
Tom

Bei diesem Diagramm sehe ich, dass auch ohne Horus bei 8 Sockeln sehr wohl die Classicvarainte noch gut skaliert, lediglich bei 8 Sockeln ist eine gewisse Einbusse zu sehen, das Diagramm ist mir zudem schon länger bekannt ...

Man darf aber auch nicht vergessen, dass Horus nicht nur eine spezielle externe Fabric ist (was auch Latenz fressen kann) und eine Schnittstelle zu Infiniband darstellt, sondern zugleich auch Cache (64MB?) enthält, da darf es auch ein Hauch besser skalieren.

Zudem ist der Horus eine Abkürzung zu weiter entfernten Opterons, da ist es bei vielen Knoten eine Hilfe und die Latenzen halten sich in Grenzen. Natürlich wird bei mehren Prozessoren auch irgendwann die Bandbreite zum limitierenden Faktor, aber das ist bei wenigen Prozessoren absolut nachrangig.

Was mich aber stört, ist dass immer wieder der Stellenwert von der SRQ übersehen wird, das ist der Kern für weiter gut skalierende Multicores on Die. Die Lösung mit dem Dual-Core on Die zeigt, dass Speicherbandbreite nicht alles ist, denn sonst wäre ein 2 Sockelsystem mit Einzelkern Opterons praktisch immer im Vorteil bei doppelter Speicherbandbreite ... ist es aber in der Regel nicht [Ende Benchmarkmärchen].

MFG Bobo(2005)

rkinet · 09.11.2005

Bokill schrieb:
Was mich aber stört, ist dass immer wieder der Stellenwert von der SRQ übersehen wird, das ist der Kern für weiter gut skalierende Multicores on Die.

Die Lösung mit dem Dual-Core on Die zeigt, dass Speicherbandbreite nicht alles ist, denn sonst wäre ein 2 Sockelsystem mit Einzelkern Opterons praktisch immer im Vorteil bei doppelter Speicherbandbreite ...

AMD hat Socket F /1206 auf Multicore (2,4, ..) ausgelegt,
incl. DDR-II/-III /FB-DIMM und nächste HTr Versionen.

Ein Dual-Channel DDR-II 800 steht im Vergleich zu DDR-I 400 recht gut da, aber ein Quad-Core würde schonn recht gut daran knabbern. Bei 8, 16 (, 32) Cores wirds noch enger - noch noch Lebzeit des So.F

Zudem kommt ja bald massiv die Virtualisierung, was deutlich mehr Bandbreite erfordern wird. Heute haben wir Taskwechsel per Interupt in relativ mäßigen Zeitabständen.
Zudem ist damit zu rechnen, daß z.B. das OS in mehreren Kopien im Speicher ist
(s. z.B. 2 GByte RAM statt 512k RAM Empfehlung für 64 Bit = virtuelle Maschinen Win Vista vs. 32 Bit Win Vista)
Bei der Virtualisierung wird man aber deutlich kürzere Zeitabstände wählen (müssen), sonst 'ruckeln' die virtuellen CPU. Bei einer virtuellen CPU im Multimedia TCPA-Einsatz dürfte man möglichst kurze Unterbrechungen anstreben.

Mal überschlagen:
Dual DDR-II 667 = 1* 10,7 GByte/s (brutto)
16 Bit / 1 GHz HTr 2.x = 2* 4 GByte/s (brutto)
32 Bit / 1 GHz HTr 2.x = 2* 8 GByte/s (brutto)

Dual DDR-III 1200 = 1* 19,3 GByte/s (brutto)
16 Bit / 2? GHz HTr 3.x = 2* 8 GByte/s (brutto)
32 Bit / 2? GHz HTr 3.x = 2* 16 GByte/s (brutto)

Vielleicht ist die Lösung Dual-Channel zzgl. 32 statt 16 Bit HTr eine Möglichkeit für AMD. Dies würde auch bedeuten, daß Horus auf 32 Bit HTr umgestellt wird.

Denkbar wären sogar 3-Channel DRAM (also 2*3 = 6 je Socket) zzgl. 32 stat 16 Bit HTr.

Mal sehen, was AMD aufbieten wird. Aber den Socket-wechsel hat man sich sicherlich gut überlegt.

Bokill · 09.11.2005

rkinet, du hast immer noch nicht verstanden was mich stört.

HTr ist erst mal ein Interconnect nach aussen hin ...

Da ist es völlig egal welche Version nach aussen HTr hat.

Entscheidend für Multicores on Die ist der interne Datenverkehr.

Nach den L2 Caches ist die SRQ angeordnet, die ist vermutlich auch für mehr als nur 2 CPU-Kerne ausgelegt.
Dann kommt die X-Bar (Cross-Bar) , die verbindet die Funktionslogik für Speicherkontroller und die Logik für den Externen Datenverkehr mit HTr.

Natürlich steigen die Anforderungen mit vielen Sockeln, aber bei einem Multicore kann deutlich der Bedarf an Mehrfachsockeln reduziert werden, wenn der interne Datenverkehr den Multicores angepasst wird.

Anders gesagt, wenn AMD es nicht gebacken bekommt, den internen Datenverkehr zu skalieren mit den mehreren CPU-Kernen, dann ist der ganze Aufwand mit verbesserten HTr und verbesserten Speichercontrollern für die Katz.

Erst wenn die internen Kerne prima zusammen laufen, dann wird es sinnvoll die gesteigerten Anforderungen mit Mehrfachsockeln zu verbessern.

Bei dem Skalierungsbeispiel mit 8 Sockeln sieht man ja eine gewisse Bremse bei 2-fach Kernen. Vermutlich erst ab da an (8 Sockel + Quadcore) lohnt sich wirklich ein Horus, vorher ist es ein sehr teurer Chip mit marginalen Leistungsgewinnen.

MFG Bobo(2005)

mtb][sledgehammer · 09.11.2005

Ein weiterer Aspekt wird ebenfalls übersehen. Das Betriebssystem kann auch Daten bevorzugt direkt am Speichercontroller des Knotens abspeichern, an dem auch die Daten bearbeitet werden (nennt sich dann AFAIK NUMA). Dadurch ist die Wahrscheinlichkeit, dass Daten im selben Knoten abgespeichert werden ebnen nicht 1/n sondern sehr viel näher bei 1. Wiegut das das OS kann ist selbstverständlich ein anderes Thema, aber es ist definitiv die elegantere Methode. Ich lege meine Daten normalerweise daher auch auf dem Schreibtisch ab und nicht im Garten um sie zu bearbeiten

Und daher halte ich auch Bokills Betonung der internen Bandbreite für deutlich wichtiger als die externe. Die externe kann nämlich garnicht so schnell skalieren wie man die Anzahl der Knoten erhöht. Schon in einer Größenordnung von Horus I (32 Knoten) dürfte das sehr schwierig werden.

Opteron+ == K8L, K10 sehr verspätet oder tot?

Admiral Special

Moderation MBDB, ,

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Commander

Administrator

Admiral Special

Admiral Special

Gesperrt

Admiral Special

Admiral Special

Grand Admiral Special

Admiral Special

Grand Admiral Special

Gesperrt

Grand Admiral Special

Admiral Special

Gesperrt

Admiral Special

Redaktion☆☆☆☆☆☆

Gesperrt

Grand Admiral Special

Gesperrt

Grand Admiral Special

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆