Archiv verlassen und diese Seite im Standarddesign anzeigen : Opteron+ == K8L, K10 sehr verspätet oder tot?
mocad_tom
03.11.2005, 08:55
Hier also nun Neuigkeiten über die AMD-Entwicklerteams:
http://www.the-inquirer.com/?article=27421
Der K8L wird ein Quad-Core.
Spekulatius:
Dieser 8-Core-Chip könnte ein MCM werden.
>Like the horrendously complex eight issue K9 before it...
:o
Welche Vokabeln wurden damals für den Power5 aus dem Hut gezogen - Monsterwuchs?
Grüße,
Tom
Klingt zwar nicht gut, daß der K10 gestrichen wurde, aber ob das tatsächlich so ist, kann ich nicht mal ansatzweise beurteilen. Gibt es denn eigentlich mehr Infos/Gerüchte zum K10 als nur die Bezeichnung?
Auf jeden Fall ist die momentane Architektur ziemlich gut skalierbar, sie hat noch gewisse Taktreserven und läßt sich gut auf mehrere Cores verbreitern. Von daher kann sich AMD damit noch eine ganze Weile gut positionieren.
Aber auf längere Sicht ist wohl nicht ganz klar, ob man mit wenigen starken Cores oder besser vielen weniger komplexen besser klarkommt oder gar sowas wie den Cell mit unterschiedlichen Einheiten auch im Desktopbereich gut verwenden kann.
Ziemlich wüste Gerüchte von The Inquirer.
AMD hat erst auf der letzen Analystentagung für 2007 neue Core / mehr Cache angekündigt, wobei diese sehr wahrtscheinlich dann die ersten 65nm Entwicklungen sind.
Dazu gehört dann auch DDR-III oder DDR-II /-III Kombikontroller.
Im Rahmen der Pacifica-Weiterentwicklung (27.10.2005 / http://tecchannel.de/technologie/prozessoren/432777/index7.html) sind auch Weiterentwicklunges des Cores schon umschrieben, speziell im Zusammenhang mit dem Update von Pazifica.
Das erscheint alles schon sehr weit entwickelt zu sein.
Als Zukunftsmusik hat AMD aber die Implementierung von Co-Prozessoren angekündigt.
Vielleicht war/ist dies das ominöse 'K10-Projekt'.
Im Core selbst kann ich mir nur die optimierte Implementierung virueller CPUs vorstellen. Dann würde es auch Sinn machen, von 3 auf 4 parallele Units 8s. Merom /Conroe) zu wechseln.
Fazit: Bei AMD erscheint alles in einem ungestörten Fluß zu sein, wobei man vs. Intel bei der Virtualisierung schon die Nase vorne hat (s. Link zu Pazifica)
Hier also nun Neuigkeiten über die AMD-Entwicklerteams:
http://www.the-inquirer.com/?article=27421
Der K8L wird ein Quad-Core.
Spekulatius:
Dieser 8-Core-Chip könnte ein MCM werden.
Was jetzt ? 4 oder 8 cores ? :)
Alles irgendwie verworren, kann mich noch an die Meldung erinnern, dass der K9 gestrichen wurde und durch den K10 ersetzt wird. So jetzt ist der K10 gestrichen, aber diesmal ist kein K11 in Sicht :)
Naja aber nachdem jetzt langsam die multithreading Software-Maschinerie angespringt, macht es vielleicht mehr Sinn einfach die aktuellen cores zu vervielfältigen, als was komplett Neues zu entwickeln.
Das das gut geht, zeigt ja Intel, der PentiumPro wurde 1995 vorgestellt und mit dem Pentium M quasi immer noch auf dem Markt.
So gesehen wird es langweilig im CPU Bereich, die Neuerungen der nächsten Zeit sind nur dual-quad-octo cores plus ein paar kleinere Änderungen wie SSE4, HTr3 usw ...
ciao
Alex
mtb][sledgehammer
03.11.2005, 16:48
Ich sehe es auch so: bislang wurde ja eigentlich nie genau gesagt, was nun K9 K10 oder sonstige Chips genau bringen. Das offizielleste ist eben das:
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2565
und dabei nicht wirklich veraltet. Eben ein wenig "verschwommen". Aber zumindest die Richtung ist klar vorgegeben: Multi-Core hat Priorität und wirkliche Erweiterungen des Cores sind eher für einen späteren Zeitraum vorgesehen.
Und ganz ehrlich: ich denke es ist positiver wenn AMD ein Projekt absagt und nicht wie Intel versucht ein schlechtes Produkt mit aller marketingtechnischer und technischer Gewalt auf den Markt zu bringen.
Hans Fuchs
03.11.2005, 17:16
Das ist Quark!
AMD wird jetzt an der K8 und K9 forschen und entwickeln. Die K10 giebt es nur alls Grob um rizenen Plan, wo alles rein kommt was in die K9 nicht mehr rein passt oder was sich noch nicht um setzen lest.
2007 soll die K9 kommen, da kommt die K10 nicht vor 2011/12
PS
Ich scheib jetzt auch mal in ergend ein Forum das der K11 zu gunzten des K12 gestrichen wird. Den Link hau ich dan hier ins Forum und schon haben wir eine super spekulations Thema.
afaik wurde der K9 gestrichen, da der in Richtung Netburst Architektur gehen sollte, was AMD aber wohl schon lange lange vor Intel erkannt hat, dass das nichts taugt.
Zum K10 gab es meines Wissens nie was essentiell konkretes. *noahnung*
Wie Hans schon richtig bemerkt ne schoene typische Inquirermeldung. ;)
mocad_tom
03.11.2005, 22:58
Ich bin ja auch ein Vertreter der moderaten Änderungen.
In diesem K7/K8-Kern steckt nun schon so viel Tweaking, so viele Mannjahre, so viele Steppings.
Man hat ja die wohltuenden Eingriffe in die L2-Cache-Latenz gesehen beim Shrink von 130 auf 90nm.
Und hier lässt sich evtl. beim Shrink auf 65nm wieder etwas optimieren.
Kleiner Eingriff - große Wirkung.
Es sind ja schon vage Vermutungen bezüglich L0-Cache gekommen, grössere Umbauten des Kerns. Ich sehe in diesen Core-Teams eher die Rolle von Konzept-Studien wie man sie auf der IAA sieht - Fingerübungen, Patente rechtzeitig abstecken. Allerdings sehe ich eine zu frühe Auflösung dieser Teams als spielen im Sandkasten.
http://www.anandtech.com/IT/showdoc.aspx?i=2447&p=7
Branch prediction penalties, due to the longer pipeline of Nocona/Irwindale, are not the problem. We noticed with Vtune and Code Analyst that the Branch Prediction Unit of the Xeon Nocona and Irwindale does a marvellous job and predicts between 96% (MySQL) and 97% (DB2) of the branches correctly, while the Opteron's BPU is about 93% and 94% correct of the time. MySQL consists of 20% branches, and DB2 has only 16% branches. The L2-caches also do a good job with only 2% of data demands being covered by the RAM, and a 98% hitrate on the L1 and L2-caches.
Auch die Branch Prediction und Prefetching sind Bereiche wo man nachhaken kann - auch wenn es eine echt langweilige Diskussion wäre. 2MB-L2-Cache alleine können hier auch schon ein bisschen richten. Auch von L3-Cache ist bereits gesprochen worden.
AMD64 wird jetzt dann erst noch richtig greifen - mit der Einführung von Win Vista.
Dual-Core wird erst durchschlagen mit ausgereiften GraKa-Treibern.
An der Takt-Schraube kann gedreht werden. Demnächst soll ein Opteron 875 HE 2,2GHz mit 2x1MB L2 mit 55W erscheinen. Man sieht also, da ist Luft drin.
Multi-Core schön und gut(für Server ist AMD hervorragend aufgestellt) nur bringt es nicht allzu viel für die Gamer.
Meiner Ansicht nach müssen sie diese Front jetzt dann wieder stärken.
Allein die Taktschraube wird sich auch nicht immer bemühen lassen.
Bei der XBox360 hat man besonderen Wert auf einen reibunglosen Abgleich zw. CPU-Cache und GPU-Core gelegt. Cache-Bereiche lassen sich umswitchen in einen "Local Storage" hier könnte ich mir Bewegung vorstellen - siehe hier:
http://arstechnica.com/articles/paedia/cpu/xbox360-1.ars/5
Die GPU läuft der CPU weiter den Rang ab - siehe hier:
http://www.extremetech.com/article2/0,1697,1880749,00.asp
http://www.havok.com/content/view/187/77/
wichtig ist es allerdings die GPU richtig in Szene zu setzen.
Grüße,
Tom
mocad_tom
04.11.2005, 23:02
AMD ist auf der Serverseite hervorragend aufgestellt:
http://www.itjungle.com/tlb/tlb102505-story02.html
In fact, one of the interesting things that will be shown at the Supercomputing 2005 HPC industry show in Seattle, Wash., in mid-November is a 16-socket, dual core Horus-based server. Norton says that a 32-socket machine is up and running in the Newisys labs in Austin, Texas, with an early rev of the Horus chipset.....
....While he can't come out and say this, it is no coincidence that Horus will be ready to rock when the Opteron Rev F chips--these are the ones that support DDR2 main memory, possibly 1.2 GHz or 1.4 GHz bi-directional HyperTransport buses
*kopfkratz
Sockel F nun doch mit DDR2 und nicht mit FB-DIMM - glaub ich nicht *nono*
Gibt es überhaupt eine Rev. F für Opteron in der Form wie es eine Rev. F für A64 gibt?
Den letzten Refresh, den der S940-Chip jetzt noch bekommt ist Pacifica+Presidio.
Meiner Meinung nach wird der Sockel 940 noch solange mit Dual-Core-Opterons beliefert, bis der Sockel F + Quad-Core K8L fertig ist.
Und hier fängt bei mir der Argumentationsbogen an.
Der Horus wird nicht eine Plattform(Sockel 940) unterstützen, die gerade die letzten Speed-Upgrades erhält.
Also ich rechne felsenfest mit einem Sockel-F-Horus-System auf der Supercomputing 2005. In einem System mit 32 Sockeln, bestückt mit einem Opteron+ mit 8 Kernen ergibt sich die wahnsinnige Anzahl von 256 Kernen in einem ccNUMA-Verbund.
Hierzu passt auch die Aussage von Phil Hester:
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2565
In the next year or so AMD plans on truly showcasing the scalability of their Opteron architecture by providing platforms with support for up to 32-socket configurations, truly stressing the scalability of AMD's Direct Connect architecture.
Hier noch eine der handfestesten AMD-Aussagen dieses Jahres - ich sehe es fast als eine Drohung an die Konkurrenz - ausserdem steckt es ziemlich konsequent den Zeitrahmen ab.
http://www.heise.de/newsticker/result.xhtml?url=/newsticker/meldung/58859&words=dual%20Opteron%20Dual
AMD-Chef Hector Ruiz:"Heute bringen wir zum zweiten Geburtstag des Opteron-Prozessors einen Zweifach-Prozessor, was werden wir wohl zu seinem vierten Geburtstag präsentieren?"
Grüße,
Tom
Wäre mal schön auch mal Kernaussagen in das Gedächtnis zurückzurufen ...
Im Frühjahr hatte AMD ein eindeutiges Bekenntnis bei einer Embedded-Veranstaltung gegeben. 5 Jahre Lieferbarkeit von Opterons (Embedded). Da erst ab da an die ersten Sockel 939 Opterons vorsichtig über den Tellerrand schauten, wird uns der Sockel 940/939 noch ziemlich lange erhalten bleiben ... wenn auch nicht unbedingt als Konsumersockel.
So ziemlich das gleiche macht derzeit der K7 durch, der wird jetzt noch als aktuelle Lösung für Embeddedlösungen verkauft (war in der Woche eine Meldung von AMD-Board (http://www.orthy.de/orthy/modules.php?name=Hotlinks&op=redir&theurl=http%3A%2F%2Fwww.amdboard.com%2Fgeode_ecs_nxs7m.html) [AMDboard.com/Orthy.de] zu dem NX-Geode und dem SIS Chipsatz SiS741GX dazu).
Hier noch mal eine 6 Monate alte Meldung dazu -> Aktuelles Geode NX SIS 741CX Sockel A Board (Embedded) (http://www.athlon.de/showthreaded.php?Cat=&Number=858507&page=&view=&sb=5&o=&vc=1) [Athlon.de] sowie der Meldung dazu -> Investitionen.Top Halbleiterhersteller 2005 (http://www.athlon.de/showthreaded.php?Cat=&Number=856761&page=&view=&sb=5&o=&vc=1)
... Von der anderen Seite (Embedded) kann noch spannendes erwartet werden. Denn der Opteron soll auch dort eingesetzt werden. Die EE-Serie verspricht da einiges. In wie weit aber die K8 Architektur in die Geodelinie eingebunden wird, ist mit der AMD-Meldungvom 8.3.2005 noch unklar [Athlon.de].
In so fern steht der Opteron noch am Anfang seiner Karriere als Embedded-CPU ... mit anderen Worten: Der jetzige Opteron wird uns noch lange begleiten. Seine Multicoregenossen werden ähnliche Laufzeiten haben, wenn sie gefragt sein werden sollten.
MFG Bobo(2005)
mocad_tom
05.11.2005, 17:38
Ich habe mich vielleicht etwas missverständlich ausgedrückt.
Natürlich wird der Optern-S940 noch weiter produziert und weiterverkauft, nur werden keine weiteren Taktsprünge(jenseits der 3GHz), Shrinks, Features etc. dazukommen.
Der Sockel940 ist momentan 2,5 Jahre alt, er hat alle Erwartungen erfüllt, bandbreitenmäßig bietet er immer noch genug(Intel bietet mit dem S771 immer noch weniger Bandbreite) - allerdings wird er gegen Ende nächsten Jahres einen ;) sehr viel größeren Bruder ;) erhalten - und ich kann mir nicht vorstellen, das AMD für beide Server-Sockel die gleiche Bandbreite an Prozessoren bringen wird.
Ein Quadcore macht für Sockel 940 keinen Sinn, ausserdem wird auch ein 3,X GHz Dual-Opteron mit Dual-Channel-DDR400 irgendwann mal verhungern.
Da die Validierung für Server-Systeme dann doch sehr viel Zeit in anspruch nimmt glaube ich nicht, das auf der Supercomputing 2005 ein System vorgestellt wird, welches nach Fertigstellung auf einen Prozessor basiert, der nur noch zwei oder drei Speed-Upgrades bekommt - deshalb Sockel F.
Und weil AMD in ihrer Server-Sockel-Politik sehr weitsichtig arbeitet glaube ich, das man mit einer Riesenüberraschung zu rechnen hat.
Ich erinnere blos nochmal an die Herbst-IDF 2004 ;)
http://www.heise.de/newsticker/result.xhtml?url=/newsticker/meldung/50744&words=IDF%20HP%20Opteron
Grüße,
Tom
mocad_tom
06.11.2005, 23:45
Einmal Analysten-Konferenz im Juni:
http://epscontest.com/presentations/05q2_analyst-day.htm?slide=57&a
http://epscontest2.home.comcast.net/presentations/05q2_amd_ad/Slide57.jpg
http://epscontest2.home.comcast.net/presentations/05q2_amd_ad/Slide60.jpg
Und die Ziele, wie sie Phil Hester vorsieht:
Now Coming Soon Future Goals
AMD64 Architecture Extensions to AMD64 FPU Extensions to AMD64
Dual Core Architecture Multi-Core Architecture Throughput Architecture
Direct Connect Architecture Scalable SMP Architecture On-chip Coprocessors
Enhanced Virus Protection Pacifica Virtulization Secure Execution
HyperTransport 1.0 and 2.0 HyperTransport 3.0 HyperTransport 4.0
DDR, DDR2 DDR3, FBDIMM DDR4, FBD2
AMD PowerNow! Technology Partitioned AMD PowerNow! System Resource Management
High Reliability RAS Mainframe-class Reliability Best-in-class Reliability
System Performance System Performance per Watt Throughput per Watt per Dollar
Hier kann man sich schon in etwa das Erscheinen von FB-DIMM(und Sockel F) zusammenreimen.
Über das lästige Validieren:
http://www.the-inquirer.com/?article=27476
Intel hat ein praktisch fertiges Serversystem, kann es aber noch nicht freigeben, weil noch kleinere Bugs möglich wären.
>Don't run a hospital or nuclear plant on them, OK?
Dabei hat Intel aber schon seit Juni ein laufendes S771-System:
http://www.heise.de/newsticker/meldung/60219
Deshalb validiert Newisys sein Horus-System auch mit dem Sockel F.
Grüße,
Tom
Natürlich wird der Optern-S940 noch weiter produziert und weiterverkauft, nur werden keine weiteren Taktsprünge(jenseits der 3GHz), Shrinks, Features etc. dazukommen.
Ein Quadcore macht für Sockel 940 keinen Sinn, ausserdem wird auch ein 3,X GHz Dual-Opteron mit Dual-Channel-DDR400 irgendwann mal verhungern.
AMD hat aber das Stepping 'E6' / Opteron für min 5 Jahre Verfügbarkeit angekündigt.
Was per per Fab30 leicht erledigt werden.
Außerdem will AMD früh in 2006 auf Pazifica umsteigen was gerade für Server interessant ist. Socket 1207 wird aber noch nicht früh verfügbar sein.
Daher sollte das 90nm Stepping 'F' mit Pazifica auf beim Opteron kommen, was aber automatisch einen DDR-I // DDR-II Kombicontroller ergibt.
Lt. Plan soll 2007 ein neuer (65nm) Core kommen, der aber durchaus DDR-I/-II/-III gleichzeitig beherrschen kann (DRR-II/-III sind elektrisch für die CPU eh sehr ähnlich).
Dieser Shrink könnte auch für deon So.940 Opteron kommen und dann Stepping 'F' dort ersetzen. Die Socket 940 Besitzer könnten dann 2007 entweder 'E6-Designs nachlaufen oder eben 65nm Designs.
Quad-Core und bei neuen Servern hingegen wäre So.1207 die ersten Wahl.
Es gibt aber keinen Grund, daß AMD die So.940 CPUs einfach auslaufen läßt.
Im Budget-Bereich reichen die Leistungen noch viele Jahre und nur das CPU / DRAM-Upgade erscheint nötig. Neue Designs dürften ab Mitte 2006 damit nicht mehr erstellt werden und die OEMs dürften auch keine entsprechenden Server mehr fertigen. Aber die vorhandenen werden sicherlich länger genutzt und das ist ein lukrativer Upgrade-Markt für AMD. Für 65nm Shrinks auf So.940 müßte AMD auch keinen solangen Liefermöglicherkeiten mehr zusagen. Der wäre 2007 eh nur ein Upgradeprodukt und nach 2-3 Jahren würde niemand mehr eine So.940 Server noch aufrüsten wollen.
Meiner Meinung nach, wird AMD den So.940 nach Kundenwunsch weiter laufen lassen, auch mit aktuellen CPU-Cores. Für AMD ist es wirtschaftlich egal, ob ein Kunden einen neuen Server mit So.1207 CPU kauft oder ein alter So.940 aufgerüstet wird.
Für OEMs könnte dies auch egal sein.
Wenn z.B. ein SUN-Kunde 2007 seinen alten Server noch für gut Geld weiter verkaufen kann (weil er eben noch einige Jahre unterstützt wird von neune AMD) kauft er sich eher einen Neue bei SUN. Hoher Gebrauchtpreise = Langlebigkeit der Produkte machen auch hochpreisige Käufe wiortschaftlich sinnvoll. Man kennt sowas aus der Automobilbranche, wo geringer Wertverlust der Gebrauchten einen rel. hohen Verkaufspreis der Neuen ermöglicht (=gute Margen möglich).
Auch ist es ja gerade der Vorteil des Opteron, daß er bzgl. Chipsatz sehr frei ist und man seine Lebensdauer nicht mit diesem koppeln muss. Intel hingegen hat ein starres Tandem aus beiden und kann deren Entwicklung nur begrenzt zeitversetzt am Markt plazieren.
Ein 65nm würde also auch noch mit einem betagten Chipsatz noch laufen, was bei vielen Anwendungen kein Problem ist. Aber z.B. 2008 eine 2* 3 GHz CPU mit L3-Cache und Pazifica (2) auf einem 2005er Server nachzurüsten erscheint sinnvoll.
mocad_tom
07.11.2005, 23:58
Aber zwischen DDR1 und FB-DIMM passt im Server-Segment kein Sockel für DDR2 - basta.
Zumal Intel höchstselbst es nicht erwarten kann im Server-Segment von DDR2 weg zu kommen - nicht all zu großer Speicherausbau, erst mit PC2-667 erste Vorteile gegenüber DDR1, Probleme mit dem Layout bei zu vielen Speicherbänken.
Meiner Meinung nach wird es auch keinen weiteren Shrink für Sockel940-Cpus geben.
Die schnellste CPU im aktuellen S940 wird wohl ein Dual-Opteron mit Pacifica & Presidio und max. 3,2GHz(das wäre dann ein Opteron 895) - dann ist Ende im Gelände.
Sockel F + Quad-Core Opteron+ im Q4/06 wird eine Woche vor dem Intel Cloverton auf den Markt geworfen - ich ziehe den Thread dann wieder hoch, wenn es dann so weit ist ;D - und all das wird auf der Supercomputing 2005 verkündet.
Grüße,
Tom
Aber zwischen DDR1 und FB-DIMM passt im Server-Segment kein Sockel für DDR2 - basta.
Zumal Intel höchstselbst es nicht erwarten kann im Server-Segment von DDR2 weg zu kommen - nicht all zu großer Speicherausbau, erst mit PC2-667 erste Vorteile gegenüber DDR1, Probleme mit dem Layout bei zu vielen Speicherbänken.
Meiner Meinung nach wird es auch keinen weiteren Shrink für Sockel940-Cpus geben.
Die schnellste CPU im aktuellen S940 wird wohl ein Dual-Opteron mit Pacifica & Presidio und max. 3,2GHz(das wäre dann ein Opteron 895) - dann ist Ende im Gelände.
http://tecchannel.de/server/hardware/432957/index12.html
Erster Test! Xeon 5000 Dempsey mit FB-DIMM
Allerdings ist der Durchsatz mangels Chipsatz-Treiber noch moderat, allerdings scheint der random access gut zu liegen. Vorteil bei Intel jetz die 4 statt 2 DRAM-Kanäle, die die Cores direkt ansteuern können.
FB-DIMM hat lt. AMD das gleiche Problem wie PCIe - der zusätzliche Stromverbrauch.
DDR-II und DDR-III pur erscheinen da besser. Auch gibt es bereits DDR-II reg. Module.
Wenn AMD beim 1207 auf 4-Channel geht (was für Quad-Core ff. sinnvoll wäre) hätten wir immerhin entweder 4 oder 8 DRAM-Module direkt an die jeweilige CPU angebunden.
Das reicht, speziell da ja per HTr (trotz zukünftig schneller) ja auch nur begrenzt eine Durchsatz möglich ist.
Beim Vergleich 1207 zu Dempsey hätten wir ja 4 * 2 (Socket) = 8 Riegel parallel im Einsatz, während Intel nur 4 Stück parallel bieten kann. Aktuell bei So.940 ist Gleichstand vorhanden.
Bzgl. Zukunft vom So.940:
Ich bleibe dabei, das Design ist auch angesichts der Performance vom Dempsey nicht wirklich veraltet. AMD hat finanziell nichts davon, die 940er Kunden noch Jahre lang nur mit 90nm Ersatz-CPUs zu beliefern.
---
aus: http://tweakers.net/nieuws/39753
bzw.: http://www.channelregister.co.uk/2005/11/08/amd_socket_f_spied/
Socket F = 1206 (nicht 1207) mit DDR-II 533/667/800
größer unter: http://img259.imageshack.us/img259/3060/0032cd.jpg
http://tweakers.net/ext/i.dsp/1131438107.jpg
http://tecchannel.de/server/hardware/432957/index12.html ... Wenn AMD beim 1207 auf 4-Channel geht (was für Quad-Core ff. sinnvoll wäre) hätten wir immerhin entweder 4 oder 8 DRAM-Module direkt an die jeweilige CPU angebunden.
Das reicht, speziell da ja per HTr (trotz zukünftig schneller) ja auch nur begrenzt eine Durchsatz möglich ist. ... Was hat HyperTransport damit zu schaffen? In wie weit limitiert der jetzige HyperTransport zuküftige K8 Multicoredesigns?
Du vergisst, dass der Engpass der Speicher ist, nicht der Systeminterconnect HTr.
Zudem werden die Prozessoren vom Dual-Core K8 eben nicht über den HyperTransport angebunden, sondern über die SRQ [bitte P3D Suchmaschine nutzen!!!]. Bei 4 Kernen könnte die Bandbreite in der SRQ immer noch auseichen.
Latenzen sind da eher der limitierende Faktor ... wie auch bei diesen speziellen Systemschnittstellen generell (vergleichbar den Fabrics) dieser Machart weniger Bandbreite, als Latenz der limitierende Faktor ist.
Bzgl. Zukunft vom So.940:
... AMD hat finanziell nichts davon, die 940er Kunden noch Jahre lang nur mit 90nm Ersatz-CPUs zu beliefern. Ich denke der Sockel 940 wird uns sehr lange noch erhalten bleiben. Langfristig wird eben der maximale Strimverbrauch der limitierende Faktor sein, da muss das Brandaktuelle eben auf anderen Sockeln kommen.
MFG Bobo(2005)
Was hat HyperTransport damit zu schaffen? In wie weit limitiert der jetzige HyperTransport zuküftige K8 Multicoredesigns?
Du vergisst, dass der Engpass der Speicher ist, nicht der Systeminterconnect HTr.
Es geht um min. zwei Socket F auf einem Board (Single-Socket Designs / Opteron 1xx ist ja auf So.939 / M2 gewandert).
Minimum hätten wir dann bei einem Quad-Core ein Dual-Socket Designs, also 8 Cores.
Jeder Quad-Core könnte aber Daten aus dem jeweils benachbarten Quad-Core benötigen, was entsprechende bandbreite beim HTr erfordert.
Ein 32 Bit HTr V2.0 käme da auf (Takt = 1,4 GHz) 2* 11,2 GByte/s,
4-Channel DDR-II 667 hat 1* 21,3 GByte/s (brutto, netto vielleicht 18 GByte/s).
Das reicht für eine Socket <-> Socket Verbindung bei wechseitigen, symmetrischen Anfragen der beiden Sockets, sonst drosselt es.
Bei 16 Bit HTr und 1 GHz wären es nur noch 2*4 Gbyte/s vs. 21,3 GByte/s.
Wie man sieht würde DDR-III dann doch ein HTr V3.0 ab 2007 sinnvoll erscheinen lassen; AMD hat dies aber schon auf der Roadmap.
Zu Latenzzeit: Ist halb richtig.
Mit 4 Channel DRAM hat man die gleiche Latenzzeit (vs. 2-Channel), aber man benötigt dann doch nur 1/2 der Zeit zum Transfer in/aus dem Core.
Bei 4 Cores dürften fast permanent DRAM-Zugriffe nötig werden (ok, je nach Software), da sind zügige Transfers sinnvoll.
Einen 4-Channel Socket F könnte man sicherlich auch nur mit 2* DRAM bestücken, was vielleicht bei Dual-Core kaum Performane Nachteile bringt. Ein Dual-Socket F Design könnte also mit 4 Riegeln auskommen - wie heute. Dafür aber max. 16 Riegel aufnehmen, das geht heute bei Socket 940 nicht.
mocad_tom
08.11.2005, 15:26
> http://tweakers.net/nieuws/39753
Können die nicht einen etwas grösseren Ausschnitt von dem Mainboard abfotografieren?
Wenn das mit DDR2 anstatt FB-DIMM stimmt - dann habe ich voll daneben spekuliert. ???
Zumindest ist der Sockel F schon so weit, das er mit der Vorstellung von Horus zu sehen ist - 256 Kerne ;D
Zum Dempsey - nicht mal schlecht, ein 65nm-Dual-Core mit 3,46GHz, bei anständiger Speicheranbindung - nur wird es die Kisten erst ende Februar geben.
Grüße,
Tom
Ein 32 Bit HTr V2.0 käme da auf (Takt = 1,4 GHz) 2* 11,2 GByte/s,
4-Channel DDR-II 667 hat 1* 21,3 GByte/s (brutto, netto vielleicht 18 GByte/s). 1. Was hat das mit der SRQ zu tun?
2. Was hat die SRQ mit HTr zu tun?
3. Hast du mal gesucht was es mit der SRQ auf sich hat?
4. Schon mal Benches mit extrem gedrosseltem HTr gesehen, das hat so gut wie keinen Einfluss auf die Leistung ---> Fazit: Alle Milchmädchenrechnungen, die lediglich Bandbreite berücksichtigen, die übersehen die Latenzen!
Eine 2 Sockel-Lösung mag mit 2 Opterons mag zwar eine deutlich breitere Bandbreite haben, sie wird aber aufgefressen durch höhere Latenzen für die CPU-Kommunikation zwischen den beiden Sockeln.
Das reicht für eine Socket <-> Socket Verbindung bei wechseitigen, symmetrischen Anfragen der beiden Sockets, sonst drosselt es.
Bei 16 Bit HTr und 1 GHz wären es nur noch 2*4 Gbyte/s vs. 21,3 GByte/s. Schon mal Benches mit extrem niedrigen HTr-Takt gesehen? Nein? -> unterschiedliche HT-Link-Taktung (http://www.hardwareluxx.de/cms/artikel.php?action=show&id=42&seite=8) [hardwareluxx.de]
Ars Technika hat ein Mantra ... CPU-Entwicklung hat ein Mantra, es ist das Verdecken von Latenzen, bzw. Latenzen verbessern ... praktisch alle Architekturartikel von Hannibal Stoke kehren immer wieder auf das Thema "Verdecken der Latenzen" zurück.
AMD hat genau diesen Weg der verbesserten Latenzen in den Designentscheidungen mit dem K8 schon sehr früh angepackt. Hoher Takt und viel Cache ist nun mal nicht immer der billigste Weg dieses zu verbessern.
MFG Bobo(2005)
mocad_tom
08.11.2005, 23:23
:-X rkinet hat recht :-X
http://www.realworldtech.com/includes/images/articles/horus-roundtable-1.gif
zu finden hier: http://www.realworldtech.com/page.cfm?ArticleID=RWT120104202353&p=3
Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:
CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3
Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.
Grüße,
Tom
(...)
Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:
CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3
Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.
Grüße,
Tom
Ur-Problem sind dabei aber die Hops. Bei 4 CPUs ist ja noch schön jede CPU mit jeder andren verbunden, da ists egal, wenn irgendwelche CPU was von ner andren braucht, gibt ja direkte Verbindungen, aber bei >4 CPUs wird es dann problematisch.
Ändert sich vielleicht, falls AMD mehr HTr Links beim Sockel F einführt, dann würde es "weiter" skalieren. Aber die Gerüchteküche brodelt ja in Richtung PCI-E. Gibts dazu eigentlich was Neues, Stichhaltigeres ?
ciao
Alex
P.S: Nachdem ja Intel einen "offiziellen" Test von System, die 2006 erhältlich sind, zugelassen hat, um anscheinend ein paar Käufer zum Warten zu überredem, haben wir vielleicht Glück und AMD läßt sowas auch zu. Ein paar Stück 65nm Opteron 890 (oder so) Sampels wirds hoffentlich schon geben ;D Lustig wäre es allemal.
:-X rkinet hat recht :-X
http://www.realworldtech.com/includes/images/articles/horus-roundtable-1.gif
zu finden hier: http://www.realworldtech.com/page.cfm?ArticleID=RWT120104202353&p=3
Der Grund warum Glueless mit mehr als 4 Sockel plötzlich schlecht skaliert:
CPU0 braucht ein Datum, das CPU6 im Speicher hält, nun wird über die Hops nachgefragt wer es denn hat und schließlich von CPU6 geliefert.
Im Extremfall hat nie eine CPU die geforderten Daten im eigenen Speicher:
CPU0 braucht Daten von RAM6
CPU1 braucht Daten von RAM0
CPU2 braucht Daten von RAM3
Und schwupps ist die HTr-Bandbreite ausgereizt - einfach gesagt.
Grüße,
Tom Bei diesem Diagramm sehe ich, dass auch ohne Horus bei 8 Sockeln sehr wohl die Classicvarainte noch gut skaliert, lediglich bei 8 Sockeln ist eine gewisse Einbusse zu sehen, das Diagramm ist mir zudem schon länger bekannt (http://www.athlon.de/printthread.php?Board=UBB8&main=810862&type=post) ...
Man darf aber auch nicht vergessen, dass Horus nicht nur eine spezielle externe Fabric ist (was auch Latenz fressen kann) und eine Schnittstelle zu Infiniband darstellt, sondern zugleich auch Cache (64MB?) enthält, da darf es auch ein Hauch besser skalieren.
Zudem ist der Horus eine Abkürzung zu weiter entfernten Opterons, da ist es bei vielen Knoten eine Hilfe und die Latenzen halten sich in Grenzen. Natürlich wird bei mehren Prozessoren auch irgendwann die Bandbreite zum limitierenden Faktor, aber das ist bei wenigen Prozessoren absolut nachrangig.
Was mich aber stört, ist dass immer wieder der Stellenwert von der SRQ übersehen wird, das ist der Kern für weiter gut skalierende Multicores on Die. Die Lösung mit dem Dual-Core on Die zeigt, dass Speicherbandbreite nicht alles ist, denn sonst wäre ein 2 Sockelsystem mit Einzelkern Opterons praktisch immer im Vorteil bei doppelter Speicherbandbreite ... ist es aber in der Regel nicht (http://www.planet3dnow.de/vbulletin/showpost.php?p=2192658&postcount=229) [Ende Benchmarkmärchen].
MFG Bobo(2005)
Was mich aber stört, ist dass immer wieder der Stellenwert von der SRQ übersehen wird, das ist der Kern für weiter gut skalierende Multicores on Die.
Die Lösung mit dem Dual-Core on Die zeigt, dass Speicherbandbreite nicht alles ist, denn sonst wäre ein 2 Sockelsystem mit Einzelkern Opterons praktisch immer im Vorteil bei doppelter Speicherbandbreite ...
AMD hat Socket F /1206 auf Multicore (2,4, ..) ausgelegt,
incl. DDR-II/-III /FB-DIMM und nächste HTr Versionen.
Ein Dual-Channel DDR-II 800 steht im Vergleich zu DDR-I 400 recht gut da, aber ein Quad-Core würde schonn recht gut daran knabbern. Bei 8, 16 (, 32) Cores wirds noch enger - noch noch Lebzeit des So.F
Zudem kommt ja bald massiv die Virtualisierung, was deutlich mehr Bandbreite erfordern wird. Heute haben wir Taskwechsel per Interupt in relativ mäßigen Zeitabständen.
Zudem ist damit zu rechnen, daß z.B. das OS in mehreren Kopien im Speicher ist
(s. z.B. 2 GByte RAM statt 512k RAM Empfehlung für 64 Bit = virtuelle Maschinen Win Vista vs. 32 Bit Win Vista)
Bei der Virtualisierung wird man aber deutlich kürzere Zeitabstände wählen (müssen), sonst 'ruckeln' die virtuellen CPU. Bei einer virtuellen CPU im Multimedia TCPA-Einsatz dürfte man möglichst kurze Unterbrechungen anstreben.
Mal überschlagen:
Dual DDR-II 667 = 1* 10,7 GByte/s (brutto)
16 Bit / 1 GHz HTr 2.x = 2* 4 GByte/s (brutto)
32 Bit / 1 GHz HTr 2.x = 2* 8 GByte/s (brutto)
Dual DDR-III 1200 = 1* 19,3 GByte/s (brutto)
16 Bit / 2? GHz HTr 3.x = 2* 8 GByte/s (brutto)
32 Bit / 2? GHz HTr 3.x = 2* 16 GByte/s (brutto)
Vielleicht ist die Lösung Dual-Channel zzgl. 32 statt 16 Bit HTr eine Möglichkeit für AMD. Dies würde auch bedeuten, daß Horus auf 32 Bit HTr umgestellt wird.
Denkbar wären sogar 3-Channel DRAM (also 2*3 = 6 je Socket) zzgl. 32 stat 16 Bit HTr.
Mal sehen, was AMD aufbieten wird. Aber den Socket-wechsel hat man sich sicherlich gut überlegt.
rkinet, du hast immer noch nicht verstanden was mich stört.
HTr ist erst mal ein Interconnect nach aussen hin ...
Da ist es völlig egal welche Version nach aussen HTr hat.
Entscheidend für Multicores on Die ist der interne Datenverkehr.
Nach den L2 Caches ist die SRQ angeordnet, die ist vermutlich auch für mehr als nur 2 CPU-Kerne ausgelegt.
Dann kommt die X-Bar (Cross-Bar) (http://www.planet3dnow.de/vbulletin/showpost.php?p=950902&postcount=10), die verbindet die Funktionslogik für Speicherkontroller und die Logik für den Externen Datenverkehr mit HTr.
Natürlich steigen die Anforderungen mit vielen Sockeln, aber bei einem Multicore kann deutlich der Bedarf an Mehrfachsockeln reduziert werden, wenn der interne Datenverkehr den Multicores angepasst wird.
Anders gesagt, wenn AMD es nicht gebacken bekommt, den internen Datenverkehr zu skalieren mit den mehreren CPU-Kernen, dann ist der ganze Aufwand mit verbesserten HTr und verbesserten Speichercontrollern für die Katz.
Erst wenn die internen Kerne prima zusammen laufen, dann wird es sinnvoll die gesteigerten Anforderungen mit Mehrfachsockeln zu verbessern.
Bei dem Skalierungsbeispiel mit 8 Sockeln sieht man ja eine gewisse Bremse bei 2-fach Kernen. Vermutlich erst ab da an (8 Sockel + Quadcore) lohnt sich wirklich ein Horus, vorher ist es ein sehr teurer Chip mit marginalen Leistungsgewinnen.
MFG Bobo(2005)
mtb][sledgehammer
09.11.2005, 17:21
Ein weiterer Aspekt wird ebenfalls übersehen. Das Betriebssystem kann auch Daten bevorzugt direkt am Speichercontroller des Knotens abspeichern, an dem auch die Daten bearbeitet werden (nennt sich dann AFAIK NUMA). Dadurch ist die Wahrscheinlichkeit, dass Daten im selben Knoten abgespeichert werden ebnen nicht 1/n sondern sehr viel näher bei 1. Wiegut das das OS kann ist selbstverständlich ein anderes Thema, aber es ist definitiv die elegantere Methode. Ich lege meine Daten normalerweise daher auch auf dem Schreibtisch ab und nicht im Garten um sie zu bearbeiten ;)
Und daher halte ich auch Bokills Betonung der internen Bandbreite für deutlich wichtiger als die externe. Die externe kann nämlich garnicht so schnell skalieren wie man die Anzahl der Knoten erhöht. Schon in einer Größenordnung von Horus I (32 Knoten) dürfte das sehr schwierig werden.
Treverer
09.11.2005, 19:38
ein neueres (?) pdf zum thema horus:
http://www.newisys.com/products/horus_external_white_paper_final.pdf
mocad_tom
09.11.2005, 20:36
[sledgehammer;2470167']Ein weiterer Aspekt wird ebenfalls übersehen. Das Betriebssystem kann auch Daten bevorzugt direkt am Speichercontroller des Knotens abspeichern, an dem auch die Daten bearbeitet werden (nennt sich dann AFAIK NUMA). Dadurch ist die Wahrscheinlichkeit, dass Daten im selben Knoten abgespeichert werden ebnen nicht 1/n sondern sehr viel näher bei 1. Wiegut das das OS kann ist selbstverständlich ein anderes Thema, aber es ist definitiv die elegantere Methode. Ich lege meine Daten normalerweise daher auch auf dem Schreibtisch ab und nicht im Garten um sie zu bearbeiten ;)
Oder selbst drum kümmern siehe NUMA-API ;)
http://www.novell.com/collateral/4621437/4621437.pdf
Und daher halte ich auch Bokills Betonung der internen Bandbreite für deutlich wichtiger als die externe. Die externe kann nämlich garnicht so schnell skalieren wie man die Anzahl der Knoten erhöht. Schon in einer Größenordnung von Horus I (32 Knoten) dürfte das sehr schwierig werden.
So viel zum Unterschied zwischen Theorie und Praxis.
Leider wird bei der Thread-Zuteilung nirgends gewichtet: Welche beiden Cores befinden sich auf einem Die und welche Cores liegen weiter auseinander.
Und je mehr Cores auf einem Sockel sitzen
- desto mehr Rechenleistung wird auf diesem Sockel verrichtet
- desto mehr Speicherzugriffe fallen an diesem Sockel an
- desto mehr Speicherzugriffe können aber auch auf einer RAM-Bank eines anderen Sockels anfallen
- desto mehr Datenabgleiche mit anderen Cores dieses Sockels können anfallen
- desto mehr Datenabgleiche mit Cores eines anderen Sockels können anfallen
@Alex
Wieso, wo wird über PCI-Express für Sockel F spekuliert?
Letzter Stand war soweit ich weiß - PCI-Express hat mit FB-DIMM den Physical Layer gemein - und deshalb FB-DIMM für Sockel F.
Wegen 3x32bit HTr oder 6x16bit HTr haben wir ja hier auch schonmal diskutiert - ich denke das Rätsel wird jetzt dann bald gelüftet.
Grüße,
Tom
PuckPoltergeist
09.11.2005, 20:57
So viel zum Unterschied zwischen Theorie und Praxis.
Leider wird bei der Thread-Zuteilung nirgends gewichtet: Welche beiden Cores befinden sich auf einem Die und welche Cores liegen weiter auseinander.
Natürlich achtet praktisch jedes OS darauf, die Threads möglichst gleich auf die verschiedenen CPUs aufzuteilen. Ein NUMA-aware OS achtet dazu noch darauf, dass Threads aus gleichen Prozessen möglichst auf gleichen CPUs landen, und dass diese auch nicht zwischen den verschiedenen Knoten wandern.
mocad_tom
09.11.2005, 21:35
Natürlich achtet praktisch jedes OS darauf, die Threads möglichst gleich auf die verschiedenen CPUs aufzuteilen.
Steht ja auch nicht im Gegensatz zu meiner Aussage.
Ein NUMA-aware OS achtet dazu noch darauf, dass Threads aus gleichen Prozessen möglichst auf gleichen CPUs landen, und dass diese auch nicht zwischen den verschiedenen Knoten wandern.
Und was machst du mit einem Prozess mit 32 Threads?
Grüße,
Tom
mocad_tom
10.11.2005, 22:22
Spekulatius:
http://www.theregister.com/2005/11/03/amd_bufferred/
>AMD reckons that a standard DDR DIMM needs 5.4 watts, a DDR2 DIMM
>needs 4.4 watts and a DDR2 FB-DIMM needs 10.4 watts. Pack a few sticks
>of memory in a server and that extra load adds up.
Tatsächlich kein FB-DIMM für Sockel F? *noahnung*
Für Blades und Laptops wird es wohl den Sockel S1 geben - also findet wohl kein Sockel-F-Prozessor seinen weg in einen Blade.
Intel hat für die Blades nicht wirklich den Sockel 771 konzipiert - hierhin soll zunächst mal der Sossaman kommen.
Soweit ich das sehe trennt sich die Linie zwischen Blade/Cluster-Prozessoren und NUMA-Prozessoren.
Bei Blades liegt das Hauptaugenmerk auf Performance/Watt.
Hier ist durchaus auch ein 8-Core Prozessor mit nur 1,2GHz denkbar(ähnlich den HP Blades) - die Performance/Watt dürfte hier schon sehr hoch sein(8x9W erbringt die selbe Rechenleistung wie zwei Opteron 180 = 2x90W).
Bei NUMA-Systeme ist das GHz-Rennen noch im vollen Gange. Die Rechenleistung pro Sockel ist hier ausschlaggebend. 8 Kerne bei 3GHz auf einem Sockel wären ein Traum.
Diese müssen aber gut am Speicher hängen - damit sie nicht verhungern.
Jeder Sockel der gespart wird(weil schon genug Rechenleistung vorhanden ist) ist ein guter Sockel.
Mit anderen Worten:
Wenn ein Dual-Sockel-System ausreicht um ein anderes Quad-Sockel-System einzuholen, dann zahlt sich dies für den Chiphersteller aus, weil er mehr für sein Silizium verlangen, weil die Infrastruktur günstiger ausfallen kann.
Was mich aber jetzt wieder zu FB-DIMM bringt:
Um diese enorme Bandbreite zu gewährleisten ist man fast zwangsläufig auf FB-DIMM angewiesen. Auf der Analysten-Konferenz hat man auch schon L3-Cache anklingen lassen, ausserdem wird der erste 65nm Opteron-Dual-Core 2x2 MB L2-Cache haben - soweit ich das noch in Erinnerung habe.
Grüße,
Tom
mocad_tom
11.11.2005, 12:34
FB-DIMM Spekulatius:
http://www.heise.de/ct/aktuell/meldung/66029
Fasst die bisherigen Spekulationen relativ gut zusammen.
Grüße,
Tom
mocad_tom
11.11.2005, 21:51
Der hat doch wohl eine NDA unterschrieben. Das hört sich im Ton in etwa so an wie dieser Pre-NDA-Artikel zur X1800 von anandtech(noch schnell ein paar Hits abstauben, bevor wirkliche Infos leaken). Aber ein bisschen was packen sie dann doch mit rein:
>Zudem gibt es erste Adapter, die ohne den Umweg über einen weiteren,
>Latenzzeitenträchtigen Zwischenschritt direkt an einem HyperTransport-Kanal
>der Opterons andocken. Die zusätzlichen Kosten für einen integrierten
>PCIe-Adapter, der nicht in allen Anwendungsfällen sinnvoll nutzbar wäre, machen
>diese Verwendung der Sockel-F-Kontakte wenig wahrscheinlich, zumindest als
>Standard-Feature für alle Opteron-Modelle.
Im ersten Satz war dann noch ein Link auf diese echt geniale HTX-to-Infiniband-Bridge:
>Kurz vor Beginn der SuperComputing SC2004 stellt das kalifornische Startup
>PathScale den Interconnect InfiniPath HT4X vor, der sich mit zumeist höherer
>Bandbreite und niedrigerer Latenzzeit speziell für Hypertransport-Systeme vor
>der Konkurrenz auszeichnet.
Irgendwie krippelt es bei solchen Gedankenansätzen. Zudem wenn man sich die Stärken der aktuellen ATI-Grafikkarten ins Gedächtnis ruft. ???
Was ist wenn man nun so einen Sockel F mit 4 x 32bit HTr-Pins ausstattet, dafür ganz auf ein Speicherinterface verzichtet. Die Mainboards werden mit HTX-Slots ausgestattet, in die Slots werden Karten eingesetzt, welche einen Speichercontroller besitzen.
Praktisch das HTr-Konterfei zu FB-DIMM+PCI-Express.
Hier geht AMD auf die Barrikaden gegen FB-DIMM:
http://www.theregister.com/2005/11/03/amd_bufferred/
Intel hatte schon Probleme PCI-Express stromsparend in Ihre Laptops zu integrieren. Bei den Turion-CPUs gab es nie ein Wort über den Stromhunger von HTr(ganz einfach, weil keiner vorhanden ist).
Grüße,
Tom
Interessanter Gedanke. In sich stimmig.
Ist jedenfalls konsequenter, als ein PCI-Express Port.
Ich bin immer noch am schwanken zwischen breiterem HyperTransport (http://www.orthy.de/orthy/modules.php?name=Encyclopedia&op=content&tid=269) [Orthy.de] (statt 16+16, ab Sockel F2 32+32 Lanes) oder FB-DIMM. Als Aussenseiterkandidat halte ich auch eine LAN-artige Verbindung wie Infiniband für möglich (das ist dann aber praktisch nur für Opterons sinnvoll, von daher unwahrscheinlich).
Der Pinout wäre dann bei HTr das Maximum, und dann für Jahre praktisch festgelegt. Dennoch bleibt Luft für bandbreitensteigernde Massnahmen wie Deemphasis, höherer Takt (der wird sicher auch noch kommen), verbesserte HTr Protokolle.
Der Vorteil von HTr ist, dass derzeit eine vergleichsweise geringer Takt genommen wird:
1GHz HTr Takt gegenüber einem Takt von 2,5 GHz für PCI-Express. Die Probleme, die PCI-Express in Sachen Hochfrequenz hat, hat HTr nicht so extrem. Jüngstens hat auch SiS ein Abkommen mit Rambus geschlossen in Sachen PCI-Express Schaltlogik. Das zeigt, dass manch eine Firma bereit ist sich (teure) Fremdhilfe zu holen, um schnell und ohne Probleme schnell am Markt zu sein.
Wenn aber die HF-Probleme für PCI-Express gelöst sind, dann ist ein leichtes das HF-Know How auch auf die Lanes von HTr zu übertragen. Fakt ist, dass der nächste Schritt bei PCI-Express auf 5 GHz bei der JEDEC in Vorbereitung sind.
Für die weitere Zukunft ist dann gegebenenfalls auch die Absage an das parallele Speicherinterface möglich und hat durch geringeres Pinout von FB-DIMMx* auch Luft für weitere HTr Verbindungen, oder FB-DIMMx -Kanäle.
MFG Bobo(2005)
* = Platzhalter für die dahinter stehenden Speichertechnologien.
mocad_tom
11.11.2005, 23:37
http://www.2cpu.com/review.php?id=110
http://www.2cpu.com/albums/bensley_preview/bensley_031.sized.jpg
Hässlich dieser Heatspreader ;)
__________
------| |---------------
HTr | Controller | 512bit GDDR3-Speicher
------|__________|---------------
Im Prinzip ist es egal welche Art von Speicher sich hinter dem Speichercontroller befindet.
Ein Prozessor mit Speicherzugriffe bemerkt nicht ob sich hinter dem Controller ein DDR, DDR2 oder DDR3 Speicher befindet.
Innerhalb eines Glueless-Verbunds verhält sich der Controller wie ein jetziger Opteron + Ram. Man könnte ihm sogar einen sehr abgespeckten, spezialisierten Kern spendieren, der für spezielle Helper/Scout-Threads zuständig ist:
http://www.heise.de/ct/04/14/024/
>Kunden selbst aus Datacentern fordern, dass die Prozessoren nicht nur extrem
>hohe Durchsätze, sondern auch sehr gute Single-Thread-Performance liefern
>sollen. Rock soll beides beherrschen, wobei ihm so genannte „Scout-Threads“ helfen
>sollen, Verzögerungen durch Speicherzugriffe und Verzweigungen aufzuspüren. Diese
>laufen einige 100 Instruktionen voraus, spüren solche „Landminen“ auf und laden die
>voraussichtlichen Daten und Instruktionen schon mal spekulativ in die Caches. Auch
>Intel hat eine ähnliche Technik unter dem Namen Helperthreads vorgestellt.
Als Riesen-Cache wäre eDRAM möglich.
An diesen Controller lassen sich aber auch enorme Mengen an NAND-Bausteine draufpflanzen - als Solid-State-Disk.
Am Besten alles in einer Hierarchie
20MB eDRAM, 8GB GDDR3 RAM, 40GB NAND Flash Disk
Der programmierbare Controller sorgt dafür, das benötigte Speicherbereiche in den eDRAM geladen werden.
Grüße,
Tom
mocad_tom
11.11.2005, 23:53
Ich bin Fan vom ATI-Speichercontroller(der in ganz ähnlicher Form auch in der XBox360 verwendet wird):
http://www.hexus.net/content/item.php?item=3603&page=3
http://img.hexus.net/v2/graphics_cards/ati/r520xt/images/board/naked-big.jpg
Allein das Board-Layout ist schon allererste Sahne - die im Kreis um den Core angeordneten Speicherchips - eine Augenweide.
Grüße,
Tom
http://www.2cpu.com/review.php?id=110
s. http://www.2cpu.com/review.php?id=110&page=4
Der Opteron 146 hat eine leicht bessere DRAM-Speicherbandbreite im Vergleich zum Dempsey.
Des Rätsels Lösung - der FSB 1066 zzgl. wohl FBDIMM Verzögerungen.
Dadurch schafft ein Socket theoretisch 'nur' 8,5 GByte/s brutto, durch Protokoll-Verluste ca. 6,8 bis 7,0 GByte (vgl. FSB800 Nettowerte).
Gemessen wurden aber nur 4430MB/s beim Dempsey und 5485MB/s beim Opteron.
Da geht einiges bei der Umsetzung auf FBDIMM (scheinbar) verloren.
Dresdenboy
16.11.2005, 09:20
Um das hier mal etwas durcheinanderzubringen...
Ich habe gestern auf WO mal geschrieben, was ich bei einem Vergleich des jetzigen K8 Dual Cores u. dem Die-Foto der nächsten K8-Generation festgestellt habe:
Slide 82 des Analyst Days haben wir da wohl in vorerst bestmöglicher Qualität:
http://epscontest.com/presentations/05q4_analyst-day.htm?slide=82&a
Ein gutes Opteron-DC-Die-Foto gibts hier: http://img.presence-pc.com/dossiers/dualcore/dualcore_opteron.jpg
Kurze Zusammenfassung:
alles ist etwas auseinandergerückt, daher auch die größere Lücke zw. den Caches
Verh. L2/Core ist soweit gleich
neben dem Memorycontroller des rechten Cores hat sich etwas getan (was vorher nicht da war, könnte mit Pacifica, Presidio oder Quadcore-SRQ zu tun haben)
ich sehe statt einer Reihe Pads für den Speicher um die Caches nun 2 Reihen (!) - aber wozu? 2xDDR u. 2xDDR2 oder gar 4x DDR/DDR2?
dadurch rückten auch die seitlichen HT-I/O-Pads von den Cores weg
Kurze Zusammenfassung:
alles ist etwas auseinandergerückt, daher auch die größere Lücke zw. den Caches
Verh. L2/Core ist soweit gleich
neben dem Memorycontroller des rechten Cores hat sich etwas getan (was vorher nicht da war, könnte mit Pacifica, Presidio oder Quadcore-SRQ zu tun haben)
ich sehe statt einer Reihe Pads für den Speicher um die Caches nun 2 Reihen (!) - aber wozu? 2xDDR u. 2xDDR2 oder gar 4x DDR/DDR2?
dadurch rückten auch die seitlichen HT-I/O-Pads von den Cores weg
AMD scheint ja immer großzügiger bei der DIE-Größe zu werden - Fab36 sei Dank ?
- Änderungen am Memory-Controller erscheinen realistisch, da der ja virtualisiert wird (http://www.techchannel.de/technologie/prozessoren/432777/index9.html)
- Verschieden Pads für DDR-I /-II erscheinen aber unnötig, da letzlich nur die Terrminierung (zuschaltbar ?) und die Betriebsspannung sich verändern.
- 2* 1M Cores sind sicherlich für So.F, So. M2 und So. 939 baugleich. Könnte also auf Quad-Channel beim So. F hinweisen. (unter http://www.amdcompare.com/prodoutlook/ legt sich AMD nicht auch Dual-Channel fest). Es bleibt aber die Frage, ob AMD diese Bandbreite auch benötigt.
- Quad-Core SRQ ? Ich tippe eher, daß AMD zukünftig den Instruktions-L1 inklusive aufbaut und je zwei Daten-L1 (exklusive) und einen shared-L2 / je 2 Cores zusammenfaßt. Dann wäre der SRQ hier baugleich zum heutigen. Den L3 könnte AMD per HTr 3.x anbinden, was bei 32 Bit grob 15-20 GByte/s ergäbe - das kann ein einchip L3 auch nicht besser.
...
- Quad-Core SRQ ? Ich tippe eher, daß AMD zukünftig den Instruktions-L1 inklusive aufbaut und je zwei Daten-L1 (exklusive) Kannst du das bitte genauer beschreiben?
shared-L2 / je 2 Cores zusammenfaßt. Ja das war in den Slides für 2007 drin. Die Frage ist Führt AMD 2 Familien ab 2007:
1a Familie Opteron Classic, die vergleichsweise simpel sich erweitern lässt mit den alten K8 Kernen?
+
1b. Zusätzlich einen K9 (new Core) mit eben den genannten gemeinsamen L2 Cache (den übrigens die UltraSPARC III schon lange haben)
oder
2. Der K9 (1.b) den bisherigen K8 ablöst.
Dann wäre der SRQ hier baugleich zum heutigen. Jain, gleich nicht unbedingt, aber es reichen 2 Ports. Wenn ein gemeinsamer L2 Cache für 2 Kerne da ist, dann reicht theoretisch die bisherige SRQ.
Den L3 könnte AMD per HTr 3.x anbinden, was bei 32 Bit grob 15-20 GByte/s ergäbe - das kann ein einchip L3 auch nicht besser. Da reicht auch die X-Bar. ;D
Dann hat die X-Bar eben neben dem HTr-Kontroller, Speicherkontroller zusätzlich einen L3 Cache am Zügel.
Einen L3 hinter den HTr-Port zu verstecken gegenüber dem Speicherkontroller und der SRQ bringt nur höhere Latenzen. Wenn man schon eine Fabric hat (und als solche kann man die X-Bar betrachten), dann sollte man sie auch so nutzen.
Das machen IBM, Sun, Fujitsu nicht wesentlich anders.
MFG Bobo(2005)
So heise.de (http://www.heise.de/newsticker/meldung/66234) hat jetzt auch noch was ausgegraben:
In Bezug auf die Prozessor-Technik sagte Hester, dass es zunehmend weniger auf die reine Rechenleistung des einzelnen Kerns ankomme, sondern die Funktionsfülle wachsen werde. Deshalb wolle AMD die Technik der kohärenten HyperTransport-Links, mit denen die Opterons untereinander in Multiprozessor-Systemen kommunizieren, an ausgewählte Hersteller lizenzieren; diese könnten dann darüber spezialisierte Koprozessoren anbinden, etwa für Krypto- oder Java-Funktionen. Außerdem wolle AMD auch Koprozessoren auf dem Hauptprozessor-Chip selbst anbieten.
Wenn man das dann zusammen mit der Vorstellung des neuen Supercomputers in Japan liest:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1132089651
http://www.heise.de/newsticker/meldung/66214
http://www.clearspeed.com/downloads/CSX600Processor.pdf
Dann könnte ich mir so einen Spezial Chip mit HTr Schnittstelle gut vorstellen. Zumindest scheint es ja Verbindungen zwischen AMD und Clearspeed zu geben. Bin dann nur gespannt, was Intel macht. Vielleicht dann doch auch Htr einsetzen ? *lol*
ciao
Alex
Ja das war in den Slides für 2007 drin. Die Frage ist Führt AMD 2 Familien ab 2007:
1a Familie Opteron Classic, die vergleichsweise simpel sich erweitern lässt mit den alten K8 Kernen?
+
1b. Zusätzlich einen K9 (new Core) mit eben den genannten gemeinsamen L2 Cache (den übrigens die UltraSPARC III schon lange haben)
oder
2. Der K9 (1.b) den bisherigen K8 ablöst.
Jain, gleich nicht unbedingt, aber es reichen 2 Ports. Wenn ein gemeinsamer L2 Cache für 2 Kerne da ist, dann reicht theoretisch die bisherige SRQ.
Da reicht auch die X-Bar. ;D
Dann hat die X-Bar eben neben dem HTr-Kontroller, Speicherkontroller zusätzlich einen L3 Cache am Zügel.
Einen L3 hinter den HTr-Port zu verstecken gegenüber dem Speicherkontroller und der SRQ bringt nur höhere Latenzen. Wenn man schon eine Fabric hat (und als solche kann man die X-Bar betrachten), dann sollte man sie auch so nutzen.
s. auch http://www.amdcompare.com/techoutlook/
Aufgeführt ist hier aber nur 'shared L3' ab 2007
AMD dürfte generell in 65nm nur den neuen (Dual-)Core nutzen, der dann immer in Dual-Core erscheint. Premiumprodukte hätten dann Quad-Core (lt. AMD ab 2007), also wie Athlon X4.
Lt. Technologie-Roadmap wird 2007 am Core einiges erweitert. AMD könnte einen gemeinsame, erweiterte SSEx für je zwei Cores einführen, sowie eben die beiden Daten-L1 an einen shared-L2 anbinden. Dafür wären dann die beiden Daten_L1 inklusive, vielleicht als L0/L1 Gespann und noch stärker auf Pazifica (SMT ?) optimiert.
Im Unterschied zu http://www.logan.com/sun/opteron/opteron.jpg würden sich die beiden Cores dann im Bereich 'Floating Point Unit' berühren. Weitere Co-Prozessoren würden dann auch je zwei Cores eingeführt werden. Unter dem Aspekt geringer Leistungsaufnahme hätte dies ebenso Vorteile.
Der Einwand bzgl. L3 ist teilweise berechtigt. Allerdings nutzt IBM auch externe Caches, aber eben direkt auf dem Träger neben der CPU montiert. Fertigt AMD einmal L3-Caches (=SRAM) mit HTr 3.x Interface, so kann damit einfach ein Großserien-Quad-Core (für Opteron oder Athlon) ergänzt werden.
Mal zur Überschlagrechnung:
Quad-Core in 65nm und kompakten 2* 2M oder 4* 1M L2-Design (s. 65nm SRAM-Design von IBM) würde grob 200mm2 bedeuten.
Noch 3-6 M als L3-shared dazu ergäben 30-70 mm2 mehr, aber eben auch fast die doppelte Anzahl an funktionsfähigen Transistoren. Zudem muß AMD da noch selktieren bzw. L3 deaktivieren, da ein Quad-Core mit L3 eher die obere Taktregion oder möglichst viel Takt trotz low power benötigt. Der Rest ginge als Budget Athlon X4 über den Ladentisch.
Der L3 auf zusätzlichen DIEs könnte hingegen recht flexibel eingesetzt werden. Rein geometrisch dürften sogar 4 DIEs à 50-100 mm2 neben den Quad-Core DIE passen, wenn man ihn um 45 Grad dreht. Diesen L3 müßte AMD sogar nicht einmal selbst fertigen (von IBM o. Chartered fertigen lassen ?)
(...)
Der L3 auf zusätzlichen DIEs könnte hingegen recht flexibel eingesetzt werden. Rein geometrisch dürften sogar 4 DIEs à 50-100 mm2 neben den Quad-Core DIE passen, wenn man ihn um 45 Grad dreht. Diesen L3 müßte AMD sogar nicht einmal selbst fertigen (von IBM o. Chartered fertigen lassen ?)
Jupp, IBM macht das genauso, aber die verwenden kein HTr 3 ...
Macht einfach keinen Sinn, HTr ist für Chip to Chip Verbindungen, wenn Du aber ein L3 Die im gleichen Gehäuse wie die CPU unterbringst, ist HTr ziemlich überflüssig, dann kann man den Cache auch gleich direkt an der X-Bar anflanschen. Nochdazu kämen die schon von bokill erwähnten zusätzlichen Latenzen bei der HTr Verwendung.
Also nee, das glaube ich nicht, sowas kommt allerhöchsten mit zusätzlicher Logik in Form von Horus.
ciao
Opteron
Das ist ja die Frage.
Wo kommt L3 Cache hin? L3 extern kann man praktisch in jeder Architektur hineinklatschen, ganze Badewannen voll, alles kein Problem, und da ist die Anbindung mit HTr sinnig (womit derzeit sonst).
Das mag auch sinnvoll sein bei einigen Anwendungen, aber billig ist so etwas nicht.
L3 extern: Bei einer CPU-Träger mit 2 Dice hingegen schlägt ebenso das Kostenargument zu. Da war doch was mit dem Pentium Pro?
Sicherlich ist das machbar, und wenn extern, auch auf einem gemeinsamen CPU-Träger, natürlich über HyperTransport. Kostet aber auch was. Billig und "for free" ist der L3 Cache bei IBM eben nicht.
L3 integriert hingegen sieht schon anders aus, das kann auch kompakter sein (das muss auch kein statischer RAM sein). Sinnig wäre dann die Anbindung über die X-Bar. Das ist ja die Triebkraft hinter dem K8 ... kurze Latenzen. -->> K9 Greyhound -> "Windhund"
Die Idee vom Member Opteron hingegen, dass externer L3 Cache mit zusätzlicher Logik gemacht wird, bzw. HyperTransport als "Metha-Fabric", oder auch "Hyper-Fabric" anzusehen ist, das erscheint hingegen wieder in einem anderen Licht.
Im Extremfall könnte das ein vielfach-Sockelsystem sein mit einem oder 2 Opterons und vielen weiteren HTr-Chips mit bestimmten Spezialitäten und im Zentrum der Sonnengott "Horus"als Latenzverkürzer. Jedenfalls rennt dann ein ganzer Rudel von Rechenkernen um gemeinsam Beute zu machen.
Und was sich langfristig als besonders gern genommene Zusatzfunktion im Rudel erweisen hat, das wird dann "mal so eben" in den K Sonstwas Kern integriert, genau das bietet Perspektiven. Nicht beständiges ranklatschen von Speicherlogik.
MFG Bobo(2005)
Das ist ja die Frage.
Deine Argumente sind gut.
Bleibt aber die Frage, wie groß L3 und die L2 werden.
Klassisch 4* K8 in Quad-Core würde 4* 1M L2 bedeuten - da sollte schon 3M- 9M L3 als Zusatz kommen, damit man was merkt.
Besonders wenn man mal von Dual-Channel DDR-II 800 in RDIMM ausgeht,
also 11-12 GByte/s per DRAM möglich sind.
Der L3 sollte ähnlich oder besser liegen, den nur Latenzzeit dürfte nicht reichen.
Allerdings liegt der heutige L2 noch unter 10 GByte/s, da sollte noch einiges am Core geschehen, oder ?
mocad_tom
16.11.2005, 21:46
Wenn ich so etwas lese:
>Deshalb wolle AMD die Technik der kohärenten HyperTransport-Links, mit denen
>die Opterons untereinander in Multiprozessor-Systemen kommunizieren,
>an ausgewählte Hersteller lizenzieren; diese könnten dann darüber
>spezialisierte Koprozessoren anbinden,
Beginne ich solche Sachen mit anderen Augen zu sehen:
http://www.cs.sunysb.edu/%7Evislab/projects/gpgpu/GPU_Cluster/GPU_Cluster.html
ATI beweisst mit ihren X1K-CPUs wie gut sie sich auch für andere Aufgaben eignen:
http://graphics.stanford.edu/~mhouston/public_talks/R520-mhouston.pdf
ATI hat auch schon bewiesen das sich an ihren Ringbus neben PCIe auch andere Busprotokolle(lizenzierte IP) hängen lässt:
http://www.tecchannel.de/news/themen/technologie/432755/index2.html
Grüße,
Tom
mocad_tom
16.11.2005, 22:16
http://epscontest2.home.comcast.net/presentations/05q4_amd_ad/Slide82.JPG
Bewahrheitet sich dieser Chart?
http://pc.watch.impress.co.jp/docs/2005/0422/kaigai01l.gif
Grüße,
Tom
mtb][sledgehammer
17.11.2005, 00:13
Ich hoffe ich habe das nicht irgendwo überlesen. Meine Idee für den Sinn des L3 Cache beim Opteron ist folgende: laut "Roadmap" soll dieser 2007 kommen, genauso wie FB-DIMM. Und wenn ich mich nicht falsch erinnere, dann gibt es bei FB DIMM tendenziell höhere Latenzen als beim normalen Speicher (aufgrund der Zusatzchips zwischen Speicherchips und Speichercontroller). Ergo macht es dann Sinn auch mit EDRAM wie bei IBM zu arbeiten, welcher immernoch deutlich performanter ist als FB-DIMMs aber dennoch günstig zu fertigen trotz riesiger Speichermengen. Dass AMD ein Cachemonster wie Montecito zusammenbaut halte ich für unwahrscheinlich, schließlich sollen bis dahin ja auch noch 4 Kerne auf einen Die.
[sledgehammer;2480262']Ich hoffe ich habe das nicht irgendwo überlesen. Meine Idee für den Sinn des L3 Cache beim Opteron ist folgende: laut "Roadmap" soll dieser 2007 kommen, genauso wie FB-DIMM. Und wenn ich mich nicht falsch erinnere, dann gibt es bei FB DIMM tendenziell höhere Latenzen als beim normalen Speicher (aufgrund der Zusatzchips zwischen Speicherchips und Speichercontroller). Ergo macht es dann Sinn auch mit EDRAM wie bei IBM zu arbeiten, welcher immernoch deutlich performanter ist als FB-DIMMs aber dennoch günstig zu fertigen trotz riesiger Speichermengen. Dass AMD ein Cachemonster wie Montecito zusammenbaut halte ich für unwahrscheinlich, schließlich sollen bis dahin ja auch noch 4 Kerne auf einen Die. Klingt sehr sinnig!
Nicht zu vergessen der HP 8800, der auch schon dynamischen Ram als Cache hatte. Zwar war der extern, aber immerhin war es auf der gleichen CPU-Cartridge und war zu seiner Zeit rattenschnell, obwohl es dynamischer RAM war. Speziell zur Rolle des Cache aus S-RAM oder D_RAM hatte ich das Posting: "Statisch Dynamisch" (http://www.planet3dnow.de/vbulletin/showpost.php?p=2128664&postcount=49) geschrieben.
Ich denke die Leitidee Latenz sollte man bei allen K9 (http://www.planet3dnow.de/vbulletin/showthread.php?t=109777) [P3D-Forum]- , K10- Ideen als wichtigstes Prinzip ganz nach oben stellen.
Übrigens, nur so als Nebenbemerkung. AMD will in Zukunft EFI (siehe den Link zum K9) nutzen, eine willkommenes Goodie zur Virtualisierung und System-Managementkontrolle OPMA (http://www.planet3dnow.de/vbulletin/showthread.php?t=208023&highlight=OPMA#post2116757) [P3D-Forum].
MFG Bobo(2005)
Klingt sehr sinnig!
Übrigens, nur so als Nebenbemerkung. AMD will in Zukunft EFI nutzen, eine willkommenes Goodie zur Virtualisierung und System-Managementkontrolle
a) genau
b) s. http://www.heise.de/newsticker/meldung/62137
Lt. http://www.amdcompare.com/techoutlook/ kommt 'UEFI' noch 2005, also kann man bzgl. So. F, So. M2 und der nächsten Turion -Plattform (Dual-Channel - S1 ?) eigentlich schon damit rechnen, oder ?
mocad_tom
17.11.2005, 21:26
Zum Thema L3-Cache:
http://www.aceshardware.com/read.jsp?id=60000274
http://www.aceshardware.com/articles/technical/multicore/power5.jpg
Beim Power5 sind die Tags zu den Cache-Lines direkt auf dem Prozessor-Die(L3-Directory).
Vorteil:
Es muss nur im Directory(welches mit vollem Takt läuft) nachgeschaut werden. Bei einem Cache-Hit wird auf den L3-Cache zugegriffen, bei einem Cache-Miss kann schneller auf den Hauptspeicher zugegriffen werden, da zuvor nicht der L3-Cache explizit abgefragt werden muss.
Grüße,
Tom
mocad_tom
17.11.2005, 21:52
Intel löst es etwas anders - mehr bedacht darauf Die-Space beim Prescott zu sparen(bei einer ähnlichen Realisierung wie beim Power5 würden ohne L3-Cache die Tags brach liegen), damit es aber auch performant läuft muss der Cache mit vollem Takt laufen:
http://chip-architect.com/news/2003_03_06_Looking_at_Intels_Prescott.html
http://www.chip-architect.com/news/Prescott_L3_IO_Count.jpg
Der Cache kann aber auch nicht so große Datenmengen halten, da er aus aufwändigerem SRAM bestehen muss.
Grüße,
Tom
mocad_tom
17.11.2005, 22:04
http://www.the-inquirer.com/?article=27776
>Sources said MSI has a Socket F dual board with two HTX slots likely to available
>in February. Asus has two and four socket versions, both of which have dual HTX
>slots.
??? *noahnung* ??? *noahnung* ???
Und welche Speichertechnologie?
DDR2 oder FB-DIMM, DDR2 und FB-DIMM, oder doch die HTX-Speichercontroller-Spekulatius.
Grüße,
Tom
Und welche Speichertechnologie?
DDR2 oder FB-DIMM, DDR2 und FB-DIMM, oder doch die HTX-Speichercontroller-Spekulatius.
Hast Du die Seite noch nicht angeschaut:
http://www.amdcompare.com/prodoutlook/ ?
Da steht groß und breit DDR2 beim Opteron :)
Irgendwo auf den Analyst Day Slides stand auch, dass danach (2008 ) FBDIMM kommt.
ciao
Alex
mocad_tom
18.11.2005, 08:27
Und für welchen Opteron?
Man kann es auch so lesen, das nur die Opterons der 1-er-Reihe DDR2 bekommen.
Damit hätte man nicht gelogen, aber gleichzeitig auch noch nicht bekanntgegeben welche Technologie verwendet wird.
FB-DIMM soll für 2007 kommen - stand auf einem Slide.
>Sources said MSI has a Socket F dual board with two HTX slots likely
>to available in February
:o :o :o
Ein neuer Sockel kommt in 3 Monaten in die Läden und es sind fast noch keine Fakten davon durchgedrungen.
Ein Fakt ist: Socket F is here to stay.
Der wird uns länger begleiten - deshalb muss er auch die nötigen Durchsatzraten liefern.
Vielleicht tatsächlich beides FB-DIMM+DDR2 *noahnung*
Grüße,
Tom
Ein neuer Sockel kommt in 3 Monaten in die Läden und es sind fast noch keine Fakten davon durchgedrungen.
Vielleicht tatsächlich beides FB-DIMM+DDR2 *noahnung*
a) zu HTX: http://www.heise.de/newsticker/meldung/52880 ein Jahr alt
oder: http://www.orthy.de/orthy/modules.php?name=News&file=article&sid=1287&mode=&order=&thold=
oder: http://www.deltacomputer.de/produkte/cluster/Pathscale_HTX.shtml
Vielleicht ist HTX die Realität zum Gerücht 'PCIe' Controller in der CPU eingebaut ?!
Als Bestandteil der HTr 2 - Spezifikation auch nichts wirklich überraschend, rückblickend.
b) Der So.F kann ab 2007 auch FB-DIMM - dies könnten die zusätzlichen Pind erklären. AMD bevorzugt aber DDR-II (-III) auch beim So. F, da die Contrller bei FB-DIMM zusätzliche Watt an Strom benötigen (=Problem der zusätzlichen Abwärme).
mocad_tom
18.11.2005, 20:01
Wo bleibt Horus?
http://www.the-inquirer.com/?article=27686
>We plan to talk to Newisys in an interview later this week, which
>might shed some more light on its approach.
http://www.heise.de/newsticker/result.xhtml?url=/newsticker/meldung/65961&words=Horus
>Die Firma Newisys stellt am AMD-Stand aus und wird wohl die lange erwarteten
>Server mit Horus-Chipsatz zeigen.
Grüße,
Tom
Hans Fuchs
18.11.2005, 21:57
Den hab ich her versteckt;D HA HA
mocad_tom
18.11.2005, 22:20
Hoch-Spekulatius(kurz vor dem Hochstapeln):
AMD entwickelt momentan an einer 4-Port SRQ und parallel am Dual-Core-K10.
Sollte eine von den beiden Entwicklungen schief gehen gibt es trotzdem einen Quad-Core im April 2007.
Sollte der K10 nicht laufen, können an den 4-Port SRQ 4 K8L angeflanscht werden.
Sollte der 4-Port SRQ nicht laufen können 2 K10 an den aktuellen SRQ angeflanscht werden.
Schaffen es beide Projektteams hat man als Endresultat ein 8-Kern-Monster:
http://www.fertledv.de/images/8kern-k10.JPG
Grüße,
Tom
Treverer
18.11.2005, 23:54
na, geile grafik ;D
aber hattest du kein die-photo vom dual-core-opteron *buck*
mocad_tom
19.11.2005, 00:08
Ich wollte eine CPU mit Shared Cache nehmen - da er aller vorraussicht nach diesen haben wird.
Der DC-K10 belegt nur einen Port an der SRQ, ein heutiger K8-Kern beansprucht ebenfalls einen Port.
mocad_tom
26.12.2005, 20:35
Schneeschippen im Spekulationsthread :-X
Schonmal ins aktuelle Prozessorgeflüster geschaut?
http://www.heise.de/ct/06/01/020/default.shtml
>Das Zweikanal-Speicher-Interface der Windsor-, Orleans- und
>Manila-Kerne unterstützt DDR2-Module, die HyperTransport-Anbindung
>läuft vermutlich als HT1667 oder HT2000.
Also HT2000 würde eine Verdoppelung des Durchsatzes bei der gleichen Anzahl Pins bedeuten.
http://www.computerworld.com.my/PrinterFriendly.aspx?articleid=3170&pubid=4&issueid=77
>The new socket technology is required to let AMD customers
>upgrade systems based on the 2006 dual-core processor to the
>2007 quad-core processor, an AMD spokesman said. The 2006
>processors will require new motherboards compared to today's
>Opteron processors, but the socket change will allow customer to
>drop quad-core processors into systems bought after the middle of
>2006, the spokesman said.
Ich könnte es ja auch überlesen haben, aber bei Intel gab es bisher noch keine derartige Aussage:
Mit einem im Februar gekauften Bensley-System lässt sich auch der Cloverton(MCM Woodcrest) betreiben *nono* nein diese Aussage gibt es nicht.
>AMD will introduce a new core design in 2007 that is similar to the core used by
>the company's Opteron and Athlon 64 processors, said Phil Hester.....
>The new processor will incorporate four cores connected together by a new
>version of the Hypertransport interconnect technology
K10 vielleicht wirklich tot.
Grüße,
Tom
CSIP-Produkte kommen sicherlich im zweiten Quartal für den Sockel M2, der vielleicht auch AM2 heißen soll. Das Zweikanal-Speicher-Interface der Windsor-, Orleans- und Manila-Kerne unterstützt DDR2-Module, die HyperTransport-Anbindung läuft vermutlich als HT1667 oder HT2000.
aus: http://www.heise.de/ct/06/01/020/default.shtml
Ich übersetze mal: Der schwarze Schimmel wird in Baden-Baden sein erstes Rennen haben und Audi wird eine Audi-Quadro mit Vorderradantrieb zur Verfügung stellen.
Mal im ernst - bekommt Herr Stiller eine Bezahlung nach Käseintensität ?
Die Speicher wird mit 333/400 MHz (also DDR-II 667 /800) anbindbar sein (s- z.B. http://www.planet3dnow.de/vbulletin/showthread.php?t=248451).
Der Hypertransport V2.0 bleibt im heutigen Umfang erhalten beim So.939 (s. AMD-Roardmap bis Nov.06 - die sollten es am Besten wissen), da keine Vorteile zu erwarten wären. Auch fehlen die Chipsätze mit erhöhtem Hypertransport.
Lediglich beim Socket F sind 2* 4 GByte/s Hypertransport zuwenig, der Zugriff Socket <-> Socket auf benachbartes DRAM erscheint bremsend.
Aber so Q2'06 ist mit einer Verabschiedung von Hypertransport 3.0 zu rechnen, was AMD ja beim Opteron im Stepping F schon haben könnte.
(oder eben ab 65nm / 2007)
Mir erscheint es, als wird einfach ein Gerücht nach dem anderen zusammengefügt ohne über die Grundlagen nachzudenken.
---
K10 vielleicht wirklich tot
Die Modelle 2006 und 2007 unterscheiden sich durch die Fertigungstechnik (90/65nm) und die DRAM-Technik (DDR-II /-III). Zudem eben die Überarbeitung beim Hypertransport (Version 3.0) und der L3-(shared) Cache beim Quad-Core ab 2007, der ähnlich dem Pazifica-K8 sein soll.
Aber 2007 ist bei AMD nicht das Ende der Welt ...
2008/9 ist mit der 45nm Fertigung / über 4-Cores zu rechnen, was dann doch Fragen bzgl. K8-Design aufwirft.
Der mögliche K10 dürfte sich wieder einer Rechtfertigung stellen, wenn wir den Conroe (4-fach statt 3-fach superskalar - http://www.tecchannel.de/technologie/prozessoren/431725/index2.html) und Merom in der Praxis erleben.
mocad_tom
26.12.2005, 23:45
HTr 2.0b ist spezifiziert bis 1.4GHz und die ersten Socket F-Prozessoren werden untereinander mit Sicherheit mit dieser Geschwindigkeit kommunizieren.
Desweiteren sind für Socket F Design-Guides herausgegeben worden, welche die elektrischen Mindestanforderungen festlegen. Diese Mindestanforderungen beinhalten bereits die Hypertransport 3-Anforderungen, diese sind nötig, wenn der Quad-Core fertig ist.
Steckt man eine Quad-Core-CPU in ein Mainboard welches nur einen HTr 1.0-Chipsatz hat wird dank Abwärtskompatibilität der kleinste gemeinsame Nenner vereinbart, die CPUs untereinander unterhalten sich aber trotzdem mit HTr3.0.
Vorher überlegen, bevor gepostet wird.
Schön langsam wird diese Grafik zu meiner Lieblingsgrafik:
http://www.heise.de/ct/05/09/022/bild.jpg
Der im April 2007 erscheinende Quad-Core wird also definitiv aus 4 x K8L-Kernen bestehen. Der im obigen Bild mit K9 bezeichnete Kern war von Intel im Q4/07 vermutet - wir wissen, das er AMD-Intern eigentlich mit K10 bezeichnet wird. Q4/07 wird unter keinen Umständen zu halten sein. Auch die Momentan genannten Ausblicke gehen bis ins Jahr 2008, aber keine Spur vom K10.
Grüße,
Tom
HTr 2.0b ist spezifiziert bis 1.4GHz und die ersten Socket F-Prozessoren werden untereinander mit Sicherheit mit dieser Geschwindigkeit kommunizieren.
Desweiteren sind für Socket F Design-Guides herausgegeben worden, welche die elektrischen Mindestanforderungen festlegen. Diese Mindestanforderungen beinhalten bereits die Hypertransport 3-Anforderungen, diese sind nötig, wenn der Quad-Core fertig ist.
Schön langsam wird diese Grafik zu meiner Lieblingsgrafik:
http://www.heise.de/ct/05/09/022/bild.jpg
Der im April 2007 erscheinende Quad-Core wird also definitiv aus 4 x K8L-Kernen bestehen. Der im obigen Bild mit K9 bezeichnete Kern war von Intel im Q4/07 vermutet - wir wissen, das er AMD-Intern eigentlich mit K10 bezeichnet wird. Q4/07 wird unter keinen Umständen zu halten sein. Auch die Momentan genannten Ausblicke gehen bis ins Jahr 2008, aber keine Spur vom K10.
Hypertransport mit 2* 1,4 GHz / 2* 5,6 GByte/s bei 16 Bit Auslegung wäre natürlich für Hypertransport 2.0 und 90nm (Dual-)CPUs eine brauchbare Alternativ.
1,4 GHz statt 1,0 GHz steht zwar bisher nirgends bei AMD, wäre aber machbar.
Die Kompatibilität bei Socket F zu Hypertransport 3.x erscheint voll logisch; der dürfte dann 2007 o. 2008 (s. AMD-Roadmap) Einzug halten.
(Beim So. AM2 könnte Hypertransport 3.0 im Zusammenhang mit DDR-III Boards und vielleicht PCIe Version 2 Einzug halten)
Die heise.de Grafik (s.oben) ist aber nun wirklich veraltet:
- einen 65nm Whitefield wird es nicht geben; er kommt in 45nm
- ein 45 Watt Woodcrest könnte es als low power Version geben, regulär muß man eher mit ca. 75 Watt TDP wie beim Conroe rechnen (ein 65nm Whitefield hätte dann ca. 150 Watt = k.o.)
- Opteron mit 2* 2,6 GHz / 95 Watt ist ok - wird ja Anf. Feb'06 auf einer Tagung so von AMD präsentiert.
- Opteron mit 2* 2,8 GHz / 140 Watt aber nicht, AMD fährt den max. Stromverbrauch zurück, da lt. AMD (im Zusammenhang mit der eSiGe Präsentation) nicht verkaufbar
- Der Quad wird tatsächlich eher bis April'07 kommen und in 65nm mit e-SiGe allenfalls auf etwas über 100 Watt kommen. Mein Tip sind eher 95 Watt und moderate Taktraten. Auch 2007 dürften 2* 2,4 GHz noch gut verkaufbar sein und dann sind wir locker unter 100 Watt TDP.
K9, K10 (um die veralteten Codes mal zu verwenden) dürften stark unter TDP-Betrachtung stehen. Ein komplexerer Core benötigt nun einmal (überproportional) mehr Strom, während der K8 ja gerade im Zusammenhang mit der Turion / X2 bzgl. stromfressenden Schaltungsdetails geprüft wurde.
Was am K8 /X2 /X4 stört sind die getrennten Caches. Das Bild eines Pazifica-DIEs zeigt, daß je L2 einiges an Fläche für Zusatzkogik/Speicher je L2 benötigt wird. Ob AMD zukünftig einfach das in immer größerer Anzahl auf die DIEs plaziert oder eher shared L2 einführt sollte man überdenken. So ein 8 oder 16-Fach Opteron (45nm ff.) mit 8/16 unabhängigen L2-Caches á 1MB erscheint mit technisch nicht sinnvoll.
Zudem will AMD ja Erweiterungen in Form von Co-Prozessoren unterbringen, die dann auch in 4/8/16-facher Ausfertigung vorliegen müßten. Zudem brauchen solche Co-Prozessoren ja auch Cache, was shared sinnvoller zu lösen wäre (bzw. in einem L1 und L2 Konzept).
http://hometown.aol.de/Rk%20inet/Computer/Pacifica.jpg
Der erste Quad dürfte aber als 'simpler' 4-fach K8L kommen. AMD würde dann den crossbar-switch für 4-Cores, shared L3-Cache und Änderungen am Hypertransport auslegen.
Später könnten dann shared-L2 (je zwei Cores bzw. zwei Cores und zusätzlich Coprozessoren (SSE-Nachfolger ?)) kommen.
[Spekulation]Beim Wechsel auf 45nm könnte AMD dann 4 Doppel-Cores mit 4* shared L2 und 1* shared L3 zum einem Okta-Core zusammenfügen. Später vielleicht mal 4 Cores (der Tricore 360 schafft ja 6 SMT-Cores an einem shared L2) mit einem shared-2 und Zusatz-Coprozessoren und dies bis zu 4-fach = 16-Core angeordenet (dürfte aber dann schon 32nm bedeuten). Alternativ alles auch mit K8L aufgebaut erscheint mir etwas viel Aufwand bzgl. L2 und crossbar-switch (müßte dann 8-32 Cores direkt handhaben)
32 Cores - soviel hat AMD bereits schon mal angekündigt (Realisierung irgendwann). Ob dies per 32* K8L sinnvoll machbar ist erscheint auch nicht realistisch. Bzgl. SMT ist AMD ja bisher zurückhaltend, aber bei 16/32 Cores auf einem DIE haben doch viele öfters Leerlauf und das ganze würde zum Watt-Monster mutieren. Eine shared-Nutzung von Resourcen erscheint da unvermeidlich (SSE, Co-Prozessoren, Teile des CPU-Cores), selbst wenn es nicht in SMT enden würde.
mocad_tom
31.12.2005, 14:26
http://www.the-inquirer.com/?article=28639
The other FS features are the things that server people care about. 1400MHz HT will be a big one that is useful across the board, from 2 to 8 sockets. It will ease the scaling problems AMD faces between 4 and 8 sockets, and help a lot on non-local memory accesses.
One way they will burn more wafer area is 4MB L3 caches, in this case shared between cores on the die. Yup, AMD is going to take the plunge and after three or so years, up the caches.
Grüße,
Tom
http://www.the-inquirer.com/?article=28639
a) (Hypertransport 1400 MHz)
b) 4M-L3
a) Beim neuen Socket F könnte AMD bedingt durch die besseren elektrischen Eigenschaften tatsächlich leicht die volle 2.0 Spezifikation umsetzen - also 1400 MHz oder 2* 5,6 GByte /s. Bei DDR-II 667 = 1* 10,7 GByte/s könnten zwei benachbarte CPUs mit brauchbarer Geschwindigkeit gegenseitig das jeweils benachbarte RAM ansteuern.
Später einmal HTT 3.0 beim So.AM2 und späteren Revisionen vom So.F.
b) Also 4MB-L3 beim Quad mit dann 4*1M L2-Cache erscheint nicht sehr sinnvoll.
Da könnte AMD eigentlich einfacher 4* 2M-L2 je CPU unterbringen. Und eine Kürzung vom L2 auf 512k oder 256k erscheint mir auch nicht sehr sinnvoll.
Zudem, der L3 ist natürlich auch für Dual-Socket Systeme gedacht. Aber den hauptsächlichen Blick dürfte AMD doch auf 4,8 und mehr Socket-Systeme gerichtet haben. Das kommt doch eher viel an Daten/Code zusammen, das lokal zwischengespeichert werden sollte. Das XBox360 Konzept, also ein sehr schneller Cache als Zweit-DIE auf dem Träger erscheint mir das sinnvoller. Der Cache muss ja nur' deutlich vom Transfer per HTT (2,0, 3.x) abheben und eher moderat über dem lokalen DRAM liegen.
Bem: The Inquirer versteift sich zusehens in die theoretisch erhöhte IPC beim Merom/ Conroe/Woodcrest Design. Aber ein 3.0 GHz / 2,66 GHz (AMD vs. Intel) = +13% Taktvorteil bei Intel erscheint recht fraglich. Dazu müßte bei jedem dritten Takt die vierte parallele Stufe in der CPU genutzt werden. Das mag für darauf optimierte Software vielleicht einmal zutreffen, aber die heutige und eher übliche x86-64 Software wohl eher nicht.
Zudem kämpft der Woodcrest mit dem Nadelöhr FSB, wo eben auch FSB1330 nicht mal DDR-II 667 voll bedienen kann (Der FSB packt bei Intel typ. / Benchmarks ca. 80% der theoritischen Maximaldatenrate) und eben miese Latenzzeiten hat.
mocad_tom
19.01.2006, 20:23
L3-Cache-Rätsel gelüftet:
http://www.eetimes.com/news/latest/showArticle.jhtml;jsessionid=ZXSSEMUSEIIRQQSNDBESKHA?articleID=177101749
ISi (Santa Clara, Calif.) has claimed that Z-RAM can achieve five times the density of embedded SRAM, the conventional memory choice for on-chip caches, and twice the density of embedded DRAM.
As the technology dispenses with the conventional capacitor, using instead the body capacitance of the silicon top layer of SOI, the technology can be denser than DRAM.
Vielleicht bekommen sogar die Desktop-Prozessoren L3-Cache :D
Grüße,
Tom
Gleich verarbeitet ... Z-RAM (http://www.orthy.de/modules.php?name=Encyclopedia&op=content&tid=367&query=Z-RAM). War halt bis jetzt noch nicht "Eintragungswürdig". Die Firma Innovative Silicon (http://www.innovativesilicon.com/) hat aber nette Papers seit geraumer Zeit ... ;)
MFG Bobo(2006)
mtb][sledgehammer
19.01.2006, 23:19
Schöne News, leider steht nichts definitives drin, wann Endprodukte zu erwarten sind und wie schnell diese Speicherzellen sind. In jedem Fall ist es aber ein weiterer Vorteil für AMD gegenüber Intel (das wäre eigentlich eine Lösung für das Problem Itanium ;) )
[sledgehammer;2561422']Schöne News, leider steht nichts definitives drin, wann Endprodukte zu erwarten sind und wie schnell diese Speicherzellen sind. In jedem Fall ist es aber ein weiterer Vorteil für AMD gegenüber Intel (das wäre eigentlich eine Lösung für das Problem Itanium ;) ) In den Papers wird das als Konkurrenz zu embedded RAM und S-RAM hingestellt.
Von daher wird S-RAM ein Hauch schneller sein. Aber je grösser S-RAM ist (MB-Volumen), desto schlechter wird die Latenz. Der Prescott und der Yonah zeigen ja, dass L2 Cache (S-RAM) wieder gebremst wird. Der Williamette und Northwood hatten ja den schnellsten L1 und L2 Cache überhaupt in der Industrie.
MFG Bobo(2006)
http://www.theregister.co.uk/2006/01/20/amd_licenses_z-ram/
AMD: Z-RAM später, evtl. für 45nm
AMD testet nur in 90/65nm, aber es wird noch dauern.
Für aktuelle Designs (also 2007 / Quad / L3-Caches) noch zu früh.
http://www.theregister.co.uk/2006/01/20/amd_licenses_z-ram/
AMD: Z-RAM später, evtl. für 45nm
AMD testet nur in 90/65nm, aber es wird noch dauern.
Für aktuelle Designs (also 2007 / Quad / L3-Caches) noch zu früh. Kleiner Übersetzungsfehler, im Artikel steht "could come much later" das bedeutet nicht, dass es 100% erst in 10 Jahrer oder nochwas implementiert wird(!). Ist halt eben Konjunktiv. Die Gesamtaussage ist sehr pessimistisch aber nicht sicher, nur "möglich".
Das kann auch alles wunderprächtig laufen, die Forscher meinten ja auch im ursprünglichen eetimes Artikel: ISi also claims the simplicity of the technology means it should scale better than many competing technologies. Also es kann auch gut ausgehen, und dann denke ich wäre AMD schön blöd, wenn sie das nicht schnellstmöglich nützen. Es muss ja nicht gleich Massenmarkt sein, eine paar Exotenopterons für die 800er Linie reichen ja :)
ciao
Alex
mocad_tom
20.01.2006, 17:29
http://www.heise.de/ct/05/24/018/default.shtml
Mit 3 ns Zykluszeit ist auch die Performance konkurrenzfähig. Funktionierende Testchips wurden bereits von neun verschiedenen Fabriken in 90 und 65 nm hergestellt.
3 x 10^-9s = 333MHz :-/
Der eDRAM in der XBox360 läuft mit 500MHz, der eDRAM des Power5 mit halbem Prozessortakt. Bis auf die geringere Latenz sehe ich keine Vorteile zu DDR2.
Nirgendwo wird auf
- Datendurchsatz
- Latenz
- T-Schreibzyklus==T-Lesezyklus ??
Auch in den Whitepapers wird nur ständig die Packungsdichte gebetsmühlenartig wiederholt.
Als 64MB OnDie-Ram für den Geode mit wesentlich einfacherem Mainboardlayout ist er aber zu teuer.
Weder Fisch noch Fleisch.
Grüße,
Tom
Also es kann auch gut ausgehen, und dann denke ich wäre AMD schön blöd, wenn sie das nicht schnellstmöglich nützen.
AMD ist kein Bäckerladen oder ne Chipschnitzanstalt nahe dem Erzgebirge.
Mal einfach einen ehrgeizigen Zeitplan angenommen:
- Gut 4-8 Monate Dauertest von RAM-Samples
- anschließend Freigabe für die Entwickler von CPU-Cores
- Erste fertige CPU-Prototypen (Beta-Stepping) nach ebenfalls 4-8 Monaten
- Debugging und Samples für die OEMs mal 2-6 Monate angenommen
- Tests der OEMs nochmals 4-8 Monate
Gibt im Mittel noch 2 Jahre - also 45nm / 2008.
AMD fertigt nach zertifitierten Verfahren und hat alte Qualitätshaudegen von IBM in der Firma.
Irgendwelche Betas mit ohne SpeedStep gibts beim Mainstream-Ätzer nebenan am Wühltisch ...
HenryWince
21.01.2006, 01:54
3 x 10^-9s = 333MHz :-/
M.W. liegen eDRAM Cores für komplette Speicheroperation bei etwa 4ns.
Der eDRAM in der XBox360 läuft mit 500MHz, der eDRAM des Power5 mit halbem Prozessortakt. Bis auf die geringere Latenz sehe ich keine Vorteile zu DDR2.
eDRAMs haben etwas niedrigere Latenzen, aber einer der größten Vorteile ist, das man die Bandbreiten so groß wie benötigt Dimensionieren kann. Beim Xenon sind das 256GB/s für die auf dem EDRAM Die plazierten Alpha/Z-Buffer/Stencil-Einheiten -- zum 'GPU Die' gehen immerhin noch 32GB/s bzw. 16GB/s.
Nirgendwo wird auf
- Datendurchsatz
- Latenz
Datendurchsatz und Latenz sind von wichtigen Designparameter abhängig:
- Z-RAM gibts mit asynchronem (Low Power) oder synchronem (Pipelined) Interface.
- Speichermenge/Arraygröße: Mit steigenden Distanzen steigt die Interconnection Latenz (das ist bei SRAM schon heute ein Problem)
- Banking/Arraybreite: Je mehr parallele Bitleitungen desto mehr Bandbreite....
- T-Schreibzyklus==T-Lesezyklus ??
Nicht exakt, aber nahe beieinander. T-W hängt primär von der Gate Spannung und der Write Policy ab (early/late); Im Prinzip ist der Lesevorgana zwar destruktiv, aber im Gegensatz zu 1T/D-RAM benötigt man einen Refesh nicht jedes mal sondern erst nach einigen hundert Lesezyklen.
mocad_tom
21.01.2006, 12:10
Datendurchsatz und Latenz sind von wichtigen Designparameter abhängig:
- Z-RAM gibts mit asynchronem (Low Power) oder synchronem (Pipelined) Interface.
- Speichermenge/Arraygröße: Mit steigenden Distanzen steigt die Interconnection Latenz (das ist bei SRAM schon heute ein Problem)
- Banking/Arraybreite: Je mehr parallele Bitleitungen desto mehr Bandbreite....
In dem Whitepaper von hier:
http://www.innovativesilicon.com/en/technology_overview.php
Auf Seite 5:
A typical layout and cross section for a Z-RAM bit-cell integrated in a logic process is presented in Figure 3, and a typical block diagram of a 1Mbit memory is shown in Figure 4.
Warum können sie nicht zu diesem Beispielaufbau Hausnummern nennen?
Im Microprocessor Report steht folgendes zur Geschwindigkeit:
...L1 cache arrays will continue to use SRAM for the near future, because it’s the fastest memory technology and it scales readily to smaller fabrication processes....
...Z-RAM isn’t fast enough to replace SRAM, but it’s faster than conventional eDRAM and doesn’t need a separate capacitor to temporarily hold the cell’s binary state...
...Z-RAM isn’t fast enough to replace SRAM in the L1 caches of microprocessors, but L2 and L3 caches could use it...
Nur wieder keine Zahlen, aber klingt alles trotzdem sehr interessant. 1T-SRAM wird ja schon bei Nintendo eingesetzt, warum ist diese SRAM-Art noch nicht weiter verbreitet?
Grüße,
Tom
1T-SRAM wird schon sehr lange bei HP für den HP 8800/HP 8900 PA RISC verwendet.
Ich nehme mal an, dass er aber seinen Preis hat. Möglicherweise ist 1T-RAM dann nur die zweite Wahl wenn es was billigeres für "Gut Genug" gibt. Und wenn Kosten weniger wichtiger sind, dann eben wegen der Geschwindigkeit doch wieder von SRAM überholt wird.
SRAM ist sowieso vorwiegend in den Prozessor gewandert, 1T-SRAM (es ist ja in Wirklichkeit DRAM) ist es aber nicht, er blieb so weit ich überblicken kann als externer Chip.
Was Z-RAM ja so reizvoll macht:
1. Integrationsfähigkeit direkt am Prozessorkern (garantiert kurze direkte Verbindungen).
2. Ultrakompakt.
3. Vereinheitlichter Speicheraufbau (die Mischkonzepte mit Flash, SRAM, DRAM entfallen).
4. Basiert auf die Technologie SOI (ist demnach für AMD, Freescale, IBM, Chartered, TSMC, UMC) schnell einsetzbar.
Nachteil:
Offensichtlich ist SRAM immer noch schneller.
MFG Bobo(2006)
samy2338
30.01.2006, 22:39
Das Problem ist das 1T-SRAM oder auch gewöhnlicher DRAM einen anderen Fertigungsprozess verlangt (nämlich einen der große Kapazitäten (im elektrischen Sinne) ermöglicht), wie für Prozessoren bei denen die Schaltzeiten minimiert werden, um hohe Frequenzen zu erreichen.
Dadurch war es bisher nicht möglich CPU und eDRAM auf einem Chip zu vereinigen.
Mit Z-Ram auf Basis von SOI entstehen für AMD damit einige sehr interessante Möglichkeiten, die voher nicht möglich waren.
mocad_tom
08.02.2006, 09:40
Dresdenboy hat schon hier angemerkt:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=2#post2478916
- alles ist etwas auseinandergerückt
Hier ist ein Flurplan wo Bereiche voneinander abgegrenzt sind, alle bisher bekannten sind soweit auch benannt, nur sind rechts und links oben zwei Felder nicht bezeichnet:
http://www.hkepc.com/bbs/viewthread.php?tid=550652
Es ist nun auch zu hören, das die Rev.F 10Mio Transistoren mehr hat. *kopfkratz
Vielleicht schon die Tag-Rams für den L3-Cache?
Grüße,
Tom
Mit L3-Directory sind die Tag-Zellen des Power5 bezeichnet:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=2#post2481451
Hier ist ein Flurplan wo Bereiche voneinander abgegrenzt sind, alle bisher bekannten sind soweit auch benannt, nur sind rechts und links oben zwei Felder nicht bezeichnet:
http://www.hkepc.com/bbs/viewthread.php?tid=550652
Es ist nun auch zu hören, das die Rev.F 10Mio Transistoren mehr hat. *kopfkratz
Vielleicht schon die Tag-Rams für den L3-Cache?
Die zusätzlichen Transitoren dürfte Pacifica benötigen, wobei der virtuelle DRAM-Controller mit 'Nested Page Tables' (http://www.tecchannel.de/technologie/prozessoren/432777/index9.html) auch viele Transitoren benötigen dürfte.
Interessant, wie viele Bereiche auf dem DIE einfach leer sind. Kostet Waferfläche (jetzt 220 mm2 statt 194 mm2), dafür hält sich AMD so vielleicht genau den Platz frei für zukünftige Erweiterungen, ohne daß bzgl. HF / Schaltgeschwindigkeiten sich dann was ändern würde.
---
Mit Z-Ram auf Basis von SOI entstehen für AMD damit einige sehr interessante Möglichkeiten, die voher nicht möglich waren.
Mehr Cache entsteht auch bei Intel nicht am L1 oder L2, sondern beim L3.
Und der sollte als Z-RAM eigentlich immer schneller als das externe DRAM sein können.
AMD hat hier also gute Chancen einfach einen L3-Cache zu integrieren und weiterhin recht knapp mit dem L2 zu arbeiten (was ja in allen Benchmarks beim K8 unproblematisch ist). Intel kann also ruhig die Cachegrößen hoch jagen - AMD kann zukünftig preiswert mithalten.
mocad_tom
08.02.2006, 11:48
Wenn diese Bereiche wirklich etwas mit Virtualisierung zu tun hätten wären sie auf der Konferenz breit durchdiskutiert worden - sie währen dann auch auf dem Die-Bild als so etwas bezeichnet.
Schauen wir mal zum Hans de Vries:
http://www.chip-architect.com/news/2003_09_21_Detailed_Architecture_of_AMDs_64bit_Core.html
http://www.chip-architect.com/news/Opteron_1600x1200.jpg
Hier sind die Bereiche, die du meinst angegeben unter:
Opteron's Data Cache&Load Store Unit -> DTLB Level 2 und Dual DTLB
*nein*
Grüße,
Tom
Wenn diese Bereiche wirklich etwas mit Virtualisierung zu tun hätten wären sie auf der Konferenz breit durchdiskutiert worden - sie währen dann auch auf dem Die-Bild als so etwas bezeichnet.
Mehr als die Virtualisierung kommt ja bei Stepping F nicht in den Core.
Das man auf einem 90nm DIE deaktivierte L3-Ansteuerstufen integriert, obwohl der L3 erst mit 65nm kommt erscheint auch unlogisch. Auch sind hier sehr viele Transitoren/ Leitungsstränge zusätzlich betroffen, was nicht ohne Zweck sein kann.
Weshalb AMD Bereiche ohne Bezeichnung vorstellt hat natürlich einen Grund.
Aber welchen, darüber kann man nur spekulieren.
Mehr als die Virtualisierung kommt ja bei Stepping F nicht in den Core.
Ich bin mir jetzt nicht ganz sicher, aber sollte Presidio nicht auch schon mit rein?
Ich bin mir jetzt nicht ganz sicher, aber sollte Presidio nicht auch schon mit rein? Ja ich denke auch, dass beides zugleich drin ist. Nur ... das eine bewirbt man lautstark, das andere bleibt in den Tiefen des Marketings ...
Da muss man wohl den Launch der Sockel M2 CPUs abwarten, oder spätestens den Launch des nächsten Windows abwarten (was und wie dann Presidio notwendig sein wird). Die offizielle Ankündigung, dass Pacifica alle Neuerungen ab Quartal 2 2006 betrifft, lässt mich vermuten, dass dies ebenso für Presidio gilt.
In Teilmärkten wie Laptops für Geschäftsleute ist die "Sicherheitstechnologie" in Form vom "Fritz Chip" massenhaft verbaut worden
MFG Bobo(2006)
mtb][sledgehammer
08.02.2006, 17:52
Dresdenboy hat schon hier angemerkt:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=2#post2478916
Hier ist ein Flurplan wo Bereiche voneinander abgegrenzt sind, alle bisher bekannten sind soweit auch benannt, nur sind rechts und links oben zwei Felder nicht bezeichnet:
http://www.hkepc.com/bbs/viewthread.php?tid=550652
Es ist nun auch zu hören, das die Rev.F 10Mio Transistoren mehr hat. *kopfkratz
Vielleicht schon die Tag-Rams für den L3-Cache?Ich denke wenn man deine Aussage mit einer von Dresdenboy ("ich sehe statt einer Reihe Pads für den Speicher um die Caches nun 2 Reihen (!) - aber wozu? 2xDDR u. 2xDDR2 oder gar 4x DDR/DDR2?") verbindet, könnt man auch eine mögliche Antwort auf diese Frage erhalten:
Also möglicherweise sind das Pads für einen externen L3 Cache. Was allerdings gegen diese Theorie spricht ist, dass man (zumindest ich) die L3 Tags nicht explizit erkennen kann (müsste man ja auch als homogene Speicherzellen erkennen können). Aber vielleicht sehe es ja nur ich nicht.
Alternativ biete ich die Theorie der Vorberereitung auf den Quad-Core --> neue SRQ oder Die-To-Die Link
Ich bin mir jetzt nicht ganz sicher, aber sollte Presidio nicht auch schon mit rein?
Presidio ist ja lediglich eine virtuelle CPU, die noch einige Zusatzfeatures enthält - http://www.tecchannel.de/technologie/prozessoren/432777/index12.html
Viel zusätzliche Hardware ist da nicht zu erwarten.
mocad_tom
08.02.2006, 22:24
[sledgehammer;2592760']
Also möglicherweise sind das Pads für einen externen L3 Cache. Was allerdings gegen diese Theorie spricht ist, dass man (zumindest ich) die L3 Tags nicht explizit erkennen kann (müsste man ja auch als homogene Speicherzellen erkennen können).
Am hochauflösendsten ist immer noch das Bild im Pdf:
http://www.amd.com/us-en/assets/content_type/DownloadableAssets/Phil_Hester_AMD_Analyst_Day_11-15-05.pdf
Seite 19
Es scheint Struktur zu haben. Bei den Tags sind auch keine "langen" SRAM-Zeilen(die Cache-Lines) dabei wie beim L2-Cache.
Natürlich kann man auch mit dem Weichzeichner kurz über diese Positionen drübergehen, um nicht gleich zu viel zu verraten.
Grüße,
Tom
mocad_tom
11.02.2006, 11:23
http://www.fertledv.de/images/Quad-Core-MCM.JPG
Hochspekulativ:
Was ist wenn AMD beim Ramp des 65nm-Prozesses anstatt dummer Testwafer Wafer mit L3-Caches fertigt. Diese werden dann bei den Quad-Cores eingesetzt.
Ich habe jetzt als Kommunikations-Link zwischen DC1 und DC2 einen simplen HTr-Link eingezeichnet.
Eine weitere Möglichkeit wäre ein intelligenter Routing-Mechanismus im L3-Cache - da hier eine rein parallele Verbindung DC1 <-> L3 <-> DC2 besteht.
Natürlich würde sich auch ein normaler paralleler Link anbieten.
Grüße,
Tom
mtb][sledgehammer
11.02.2006, 11:36
Relevant wäre bei dieser Überlegung noch, wie groß Das Gehäuse des Sockel F ist: Im Sockel 940 hätte ich ein wenig Bedenken, drei relativ große Dies unterzubringen.
Auf alle Fälle halte ich dein Konzept nicht für völlig abwegig, im Gegenteil: ich denke es ist deutlich besser als die Intel Monsterdies Tulsa und Montecito :)
http://www.fertledv.de/images/Quad-Core-MCM.JPG
Hochspekulativ:
Was ist wenn AMD beim Ramp des 65nm-Prozesses anstatt dummer Testwafer Wafer mit L3-Caches fertigt. Diese werden dann bei den Quad-Cores eingesetzt.
Ich habe jetzt als Kommunikations-Link zwischen DC1 und DC2 einen simplen HTr-Link eingezeichnet.
Eine weitere Möglichkeit wäre ein intelligenter Routing-Mechanismus im L3-Cache - da hier eine rein parallele Verbindung DC1 <-> L3 <-> DC2 besteht.
Natürlich würde sich auch ein normaler paralleler Link anbieten.
Grüße,
Tom Nette Idee, aber für einen Sockel F K8 zu spekulativ.
Du verwirbelst praktisch die ganze vorhandene Architektur (http://www.planet3dnow.de/vbulletin/showthread.php3?s=&postid=1587642#post1587642) [planet3dnow.de-forum] durcheinander, was mit der bisherigen Architektur auch schon schnell zu lösen ist.
1. Speicherkontroller ist eine eigenständige Eimheit, die ist gar nicht pro Einzelkern angebunden. Das ist zwar machbar, bedeutet aber den Bruch mit der bisherigen K8 Architektur.
2. Der L3 Cache, ist ebenso mit einer weiteren neuen Anbindung angebunden, wo vorher auch keinerlei Datenverbindung war. Auch das bedeutet einen Bruch mit der bisherigen Architektur.
3. Die Namenlose Verbindung der Kerne ist ja genau das was die SRQ (http://www.planet3dnow.de/vbulletin/showthread.php3?s=&postid=972932#post972932) [planet3dnow.de-forum] darstellt, dahinter ist die X-Bar (http://www.planet3dnow.de/vbulletin/showthread.php3?s=&action=showpost&postid=950902) [planet3dnow.de-forum]. Schade, dass das bei dir zu kurz kommt.
4. Die Erhöhung der HyperTransportlanes ist sicher eine Möglichkeit. Der Witz ist ja, dass die Anbindungen aber nicht pro Kern sind, oder auf 2 Kerne gesplittet ist, auch das bedeutet einen starken Bruch mit der bisherigen K8 Architektur.
Verstehe mich nicht falsch, das was du da vorschlägst ist sicher machbar. An sich sind aber CPU Designs immer recht konservativ. So viel Änderung wie nötig, aber behalte so viel Notweniges und Bewährtes wie nur möglich. Da HyperTransport, XBar, SRQ aber vermutlich noch nicht ausgereizt sind, sehe ich dort keine schwerwiegenden Änderungen.
Wenn es bisher möglich wer einen Speicherkontroller "rechts Unten" neben der X-Bar ranzubauen, und "links Unten" an die X-Bar die HyperTransportlinks anzubinden, warum ist dann nicht möglich einen L3 Cache "mitten Unten" heranzubauen? Das machen andere Architekturen mit Fabrics (P.A.Semi) ebenso.
Eben weil auch viele andere Architekturen einen CPU-Internen Bus machen, der erst dann mit weiteren IO-Einheit kommunizieren, ist da dein Vorschlag deutlich anders.
Die andere Varainte ist ein Ringbus (bei dem Cell, P.A.Semi), dort sind die Kerne gleichberechtigt an den Ringbus angebunden wie Caches, IO-Einheiten, Spezialeinheiten (Kryptologie) ... .
Wie gesagt ein anregender Vorschlag von dir, aber zu progressiv, als dass es der IT-Branche gerecht wird mit der Neigung Gutes zu belassen, solange es nicht ein Engpass ist.
Ich warte schon auf flatterhafte Entenmeldungen in anderen Newsseiten, dass "at P3D a Leaked New AMD Opteron Socket F1 Design" (von dir) als "Fakt" verlinkt wird *buck* 8) ;D
MFG Bobo(2006)
mocad_tom
11.02.2006, 17:33
@mtb][sledgehammer
http://www.fertledv.de/images/aufteilung.JPG
Bei der Platzaufteilung auf dem Package wird es eng, aber es müsste gehen.
Zehn Pixel auf dem Bild sind 1mm. Den DC-Die habe ich mit 15,2 x 14 mm angenommen.
Zwischen den beiden Dies passt ein Spalt von 2,5mm, zwischen DC und L3 ist ein Spalt von 2mm eingeplant(hier ist man etwas freier in der Planung)
Das oben angededeutete Package benötigt eine Grundfläche von 30,5 x 28,9 mm.
Mechanisch ist der Sockel F mit dem Sockel 775 vergleichbar.
Der Sockel 775 stellt unter seinem Heat-Spreader eine Fläche von knapp 30x30mm zur Verfügung kann man hier rauslesen: http://www.intel.com/design/pentium4/datashts/302351.htm
Immerhin bringt man unter den Heatspreader des Sockel 771 zwei Woodcrests(genannt Cloverton 2 Dual-Cores mit 2x4MB Cache). Da das Package des Sockel 1207 größer ist als das des Sockel 775/771 wird hier wohl genügend Platz vorhanden sein.
Seitenlänge des Pentium 4 im S775: 37,5mm
Schätzung Seitenlänge Sockel 1207: 40,5mm
@Bokill
Die Chip-to-Chip-Com auf dem Package ist eigentlich die größte Unbekannte in meiner Spekulation. Am wahrscheinlichsten finde ich den Routing-Mechanismus im L3-Cache, da es das Packaging vereinfacht. Beim Mem-Controller ist meiner Meinung nach alles klar und eindeutig. Die Anzahl und Ausführung der HTr-Links ist diskutierbar. Möglich währen auch 2x32bit und 2x16bit - hat HenryWince mal in den Raum geworfen(im Zusammenhang mit dem Sockel F).
Und der L3-Cache muss irgendwie angebunden werden - ob nun OnChip oder OnDie, die Entwicklung ist in jedem Fall nicht für den Papierkorb.
Grüße,
Tom
Ja das mit dem Speicherkontroller ist eindeutig, das verwundert mich ja an deiner Zeichnung.
http://sledgehammers.gmxhome.de/stuff/xbar.jpg
Wie der L3 Cache angebunden wird ist eine gute Frage, könnte aber ähnlich angebunden werden wie der Speicherkontroller, und HyperTransportkontroller.
Wie die mehreren Kerne verbunden werden, ja das ist wirklich unklar. Von einer SRQ mit bis zu 8, oder gar 16 Eingängen, bis hin zu einem weiteren Kontroller für mehrere DualaCores ist da vieles denkbar, sogar ein Ringbus sollte man in ferner Zukunft nicht ausschliessen. So etwas hatte schon IBM mit dem Power4 vorgemacht und wird immer wieder von anderen aufgegriffen (Cell, P.A.Semi).
http://www.heise.de/ct/00/22/016/bild03.gif
Siehe auch: Dual-Core K8Hammer; Wie? (http://www.planet3dnow.de/vbulletin/showpost.php?p=1338155&postcount=1) [planet3dnow.de]. Wie man in anderen Firmen über Multicore denkt kann man auch bei Cavium (http://www.orthy.de/modules.php?name=Hotlinks&op=redir&theurl=http%3A%2F%2Fwww.theinquirer.net%2F%3Farticle%3D29550) [orthy.de] mal betrachten. http://i.cmpnet.com/commsdesign/2005/jan05/lwcavium-fig1.jpg
"Multi-Core Microprocessor Architecture for Network Services and Applications (http://www.commsdesign.com/design_corner/showArticle.jhtml?articleID=57703590)" [commsdesign.com].
Ein individueller Speicherchipkontroller pro CPU Kern ist so ziemlich das ungewöhlichste in deinem Vorschlag und passt überhaupt nicht in die Landschaft.
MFG Bobo(2006)
http://www.fertledv.de/images/Quad-Core-MCM.JPG
a) Single-Channel DDR-II 800 bringt etwa soviel Transferleistung wie Dual-Core DDR-I 4000, wäre also nicht bremsend.
b) HT1400 / als Hypertransport 2,0 ist bei Veröffentlichung des Quad-Coer nicht mehr zeitgemäß. Bald kommt die Hypertransport 3.0 Spezifikation raus und AMD hat ja selbst neue HT-Spezifikationen angedeutet (http://www.amdcompare.com/techoutlook/)
Die Trennung in einzelne DIEs wäre zudem wieder ein Rückschritt im Vergleich zu Intels Clovertown und durch etwas 'Buschtrommeln' dürfte AMD wohl auch sehr frühzeitig davon wissen.
Die Roadmap (http://www.amdcompare.com/techoutlook/) zeigt für 2007 nur die 'mehr als zwei Cores' = 3,4 ..., AMD64 Erweiterungen und den shared L3 an.
Beim Hypertransport steht nichts, nur aus 'Direct Interconnet 2.0' könnte man indirekt Schlüsse ziehen.
Ich rechne damit, daß AMD einen echten Quad in der Entwicklung hat (te), der mit 3 oder 4 Cores und externem L3 ausgeliefert wird.
Als dessen Nachfolger dann ein Produkt mit integriertem L3, sowie ein erweiterter Hypertransport für externe Zusätze (Coprozessoren etc..)
Lt. http://www.dailytech.com/article.aspx?newsid=702 / Phil Hester trennt AMD zukünftig die Cores von Server - Desktop und Mobilmarkt. Für den ersten Quad paßt da aber das Timing nicht, schließlich ist da ja fast fertig.
Im Prinzip stellt sich natürlich die Sinnfrage nach 4 FPUs bei einer Quad-Server-CPU oder einem Mobilchip. Dafür wird eine 'Redstorm'-ähnliche Anwendung durchaus auch 8 oder 16 FPUs je Quad-Core auslasten können. Die hängen da per Hochgeschwindigkeits Hypertransport (Version 3,0 ? 4.0 ?) an der CPU-
Vielleicht legt hier die AMD64 Erweiterung von 2007 schon den Grundstein für solche Varianten.
[Spekuklation]
Als 'Standard-Core' wäre vielleicht ein Design mit 2 Interger-Units (128k shared exklusiv L1), 2* 64k Daten-L1 (inklusive) und einer shared FPU an einem shared L2 denkbar.
Natürlich alles voll auf Virtualisierung ausgelegt.
Wird der erste Quad aber mit hoher Wahrscheinlichkeit nicht haben, da einfach schon zu zeitnah.
So ein (obiges) Design könnte AMD aber 2008 für die 8 / mehr als 8 Cores verwenden, bzw. da vielleicht noch 4 Integer-Units (mit je zwei 128k Instruktions-L1) zusammenfügen.
Eine 16-fach CPU hätte dann (2008 /45nm) noch 4 FPU, 4* L2, 4* Instruktions L1 zu 128k, 8* Daten-L1 zu 64k und 16* Integer-Units. Ähnlich bei heutigen GraKas würden eben auch Varianten mit teildeaktivierten Cores ausgeliefert werden.
Wer speziell 'Mathepower' benötigt hängt eben noch eine 8/16-fach FPU per Hypertransport x.y an die CPU.
Ok, dies ist spekualstiv, aber die off. Angaben von AMD - wie mehr als 8 Cores / 2008 - lassen ein simples zusammenstecken von K8++ Cores nicht erwarten.
Bin mir jetzt nicht sicher, ob es schon irgendwo im Forum stand (falls ja sorry).
Aber habt Ihr schon die neuen Opteronpreise gesehen ?
Angekündigt waren sie vom Inquirer ja schon mehrmals:
http://www.theinquirer.net/?article=29629
Aber jetzt sind sie auch schon wirksam:
http://www.geizhals.at/deutschland/a151760.html
Beim Billghändler mindfactory kostet die dual core Opterons:
265: 340 Euro
270 523 Euro
275 765 Euro
280: 983
In der Liste ist auch schon der Preis für den 285 enthalten: 1152 Euro dafür.
Von der ganzen CPU Pracht ist allerdings im Momemt nur *1* 265 auf Lager, aber ich hoffe mal das Ganze ist kein Scherz, laut Inquirer sollen die neuen Preise ja ab morgen gelten.
Bleibt die Abschlussfrage:
Wieso "verramscht" AMD die dualcore dual Opterons ?
Schon Platz schaffen für Sockel F ?
Witzig ist auch der Preis, den mindfactory für den 254 (single core, 2,8 Ghz) führt:
http://www.mindfactory.de/cgi-bin/MindStore.storefront/43ef0f030016132a2743c0a801eb05e7/Product/View/0019331
363 Euro.
Aber das richt schon eher nach Druckfehler ... oder ?
ciao
Alex
Bleibt die Abschlussfrage:
Wieso "verramscht" AMD die dualcore dual Opterons ?
Schon Platz schaffen für Sockel F ?
Witzig ist auch der Preis, den mindfactory für den 254 (single core, 2,8 Ghz) führt:
Aber das richt schon eher nach Druckfehler ... oder ?
Die CPU-Hersteller haben alle Paar Monate solche Anwandlungen und reduzieren krankhaft radikal die Preise - wohl nicht mehr heilbar ;D
Es kommen neue, schneller Modell, wobei So.940 oder So.F ziemlich egal sein sollte.
AMD lebt vom Verkauf an etablierte Plattformen, das wird sich auch nach Vorstellung vom So.F nicht verändern.
Allerdings dürfte der Schwerpunkt sich jetzt auf Dual-Core verlagern, die Intel-like mit geringerem Aufpreis kommen.
Es steht ja jetzt wohl auch der Fab36 Output zur Verfügung, also DIE-Fläche ist für AMD kein Problem mehr.
Der Opteron 254 könnte ein Druckfehler sein. Allerdings senkt AMD beim Dual-Core um rund zwei Preisgruppen, was dann beim Opteron 254 solche Werte bringen könnte.
Allerdings sind die Senkungen doch extrem.
Der 256 = 1* 3,0 GHz war übrigens schon im Frühsommer mal auf einer inoff. Roadmap für Q1'06 aufgetaucht.
Liegt also (wie immer) voll im AMD-Zeitplan - die übliche Verdächtige (Intel) für kurzfristige Preispanik hatte damals noch nicht einmal seine Abkehr von Netburst verkündet.
mocad_tom
13.02.2006, 00:09
Ja das mit dem Speicherkontroller ist eindeutig, das verwundert mich ja an deiner Zeichnung.......
.....Speicherchipkontroller pro CPU Kern ist so ziemlich das ungewöhlichste in deinem Vorschlag und passt überhaupt nicht in die Landschaft.....
Es macht die Verwendung des selben Kerns möglich.
Beim S754 und S939 ist es auch nicht anders.
Man nimmt einen SanDiego-Die und verdrahtet entweder einen Channel nach draussen(S754) oder man verdrahtet 2 Channel nach draussen(S939).
Genauso hier.
Kurze Beispielbeschreibung für die Pinbelegung in einem Package:
Pin 1-10:Stromversorgung
Pin 11-20: Channel 1
Pin 21-30: Channel 2
Pin 31-40: Htr 1
Pin 41-50: Htr 2
Pin 51-60: Htr 3
Pin 61-70: Htr 4
Pin 71-80: Htr 5
Pin 81-90: Htr 6
Packaging bei einem Windsor-Die auf dem Package:
Pin 1-10:Stromversorgung -> Die 1
Pin 11-20: Channel 1 -> Die 1
Pin 21-30: Channel 2 -> Die 1
Pin 31-40: Htr 1 -> Die 1
Pin 41-50: Htr 2 -> Die 1
Pin 51-60: Htr 3 -> Die 1
Pin 61-70: Htr 4 -> Die 1
Pin 71-80: Htr 5 -> Die 1
Pin 81-90: Htr 6 -> Die 1
Packaging bei zwei Windsor-Dies auf dem Package:
Pin 1-10:Stromversorgung -> Die 1 & 2
Pin 11-20: Channel 1 -> Die 1
Pin 21-30: Channel 2 -> Die 2
Pin 31-40: Htr 1 -> Die 1
Pin 41-50: Htr 2 -> Die 1
Pin 51-60: Htr 3 -> Die 1
Pin 61-70: Htr 4 -> Die 2
Pin 71-80: Htr 5 -> Die 2
Pin 81-90: Htr 6 -> Die 2
Grüße,
Tom
Häh Channel pro Die?
Sind wir bei denn hier bei Intel?
http://www.amdcompare.com/techoutlook/
@mocad_tom, AMD spricht von 'More than Two Cores', also ein Windsor und ein Orleans zum dreifach Prozessor zusammengeflickt ???
Es spricht nichts dagegen, daß AMD per 65nm genügend kompakt fertigen kann um eben 4 physikalische Core je DIE unter zu bekommen.
Und die Revision 2.0 von HTr als 'Direct Interconnect Architeccture' steht erst ein Jahr später = 2008 an.
Entweder AMD erzählt totalen Quatsch oder die basteln eben nicht an Intel-like Lösungen.
Aus einem echten 4-fach Core auch ein 3-Fach Produkt zu generieren (more than Two Cores) erscheint da eher wahrscheinlich.
mocad_tom
13.02.2006, 13:56
Überfordere ich euch ein bisschen? *noahnung*
Ihr könnt es mir ruhig sagen, dann lasse ich in Zukunft solche Gedankenspielchen.
In der Praxis gibt es solche Mainboards:
http://www.geizhals.at/deutschland/a101042.html
Hier steckt man auch zwei Dual-Core-Opterons drauf - gar kein großartiges Problem.
Ich könnte das MCM dahingehend abwandeln, das von einem Windsor-Die beide Kanäle nach draussen verdrahtet werden - was aber unrunder wäre als von je einem Die einen Speicherkanal nach draussen zu legen.
> Sind wir bei denn hier bei Intel?
W. T. F.
Grüße,
Tom
Überfordere ich euch ein bisschen? *noahnung*
Ihr könnt es mir ruhig sagen, dann lasse ich in Zukunft solche Gedankenspielchen.
> Sind wir bei denn hier bei Intel?
Wenn AMD mit solchen Lösungen raus käme würde die Halbleiterwelt nur grinsen.
Ich kann mir nicht vorstellen, daß AMD offiziell seit langem vom Quad-Core spricht und dann einfach nur vorhandenes zusammenleimt.
Intel macht dies zwar auch, nur die Fachpresse nimmt dies eben gnädig auf - nur die Kunden liefen/ laufen zu AMD über.
Zudem wird ja der So.F auf (nur) 95A ausgelegt (Intel 119 A)
Zwei solche Cores müßten sich diese max. 95 A Stromleistung also teilen ... weshalb hat AMD nicht gleich auf die 119A angehoben ?
AMD würde also stromsparende Dual-Core selektieren und die dann auf einen Träger bringen. Weshalb die dann nicht gleich als -HE Versionen / als Opteron 8xx vermarkten ?
Bei den Mobil-GraKa's ist dies anders, da die DRAMs eh nicht gleichzeig mit den Cores auf einem Wafer gefertigt werden können.
Der obige Bastelvorschlag hat also Probleme und ist technisch nicht umwerfend.
Intel kann sich sowas erlauben, hauptsächlich weil nichts anderes greifbar ist.
AMD hingegen hat bei 65nm Fertigung genügend kompakte Abmessungen des Quad-Core, der im Zweifel (Yield - bzw. Taktpotential) sogar noch als Tri-Core verpackbar wäre.
Die Anbindung der Cores direkt auf einem DIE wäre für AMD ebenso kein technisches Neuland, da greift man in den Baukasten. Dazu eben kein 'doppelter' Speicherkontroller onchip (benötigt Strom) und einen shared L3 auch noch zwischen zwei DIE geklemmt.
Überfordere ich euch ein bisschen? *noahnung*
Ihr könnt es mir ruhig sagen, dann lasse ich in Zukunft solche Gedankenspielchen.
In der Praxis gibt es solche Mainboards:
http://www.geizhals.at/deutschland/a101042.html
Hier steckt man auch zwei Dual-Core-Opterons drauf - gar kein großartiges Problem.
Ich könnte das MCM dahingehend abwandeln, das von einem Windsor-Die beide Kanäle nach draussen verdrahtet werden - was aber unrunder wäre als von je einem Die einen Speicherkanal nach draussen zu legen.
> Sind wir bei denn hier bei Intel?
W. T. F.
Grüße,
Tom Da kann man auch schlichte Opterons als Einzelkern raufpappen. So weit ich einschätze ist bei diesem Mainboard nur eine CPU mit dem Speicherkontroller verbunden, während die andere CPU nur indirekt auf den Speicher zugreifen kann.
Kannst uns gerne sagen woher du die Pinbelegung her hast, so wirkt das ein wenig aus dem Zusammenhang gerissen. Zwei Sockel bedeuten nicht zwingend auch Dual-Core.
mocad_tom
13.02.2006, 20:22
Bei diesen Brettern ist immer nur ein Sockel mit den Ram-Sockeln verdrahtet:
http://www.geizhals.at/deutschland/a172777.html
http://www.geizhals.at/deutschland/a60066.html
http://www.geizhals.at/deutschland/a59969.html
http://www.geizhals.at/deutschland/a101042.html
http://www.geizhals.at/deutschland/a149829.html
Diese Bretter sind im Budget-Dual-Sockel-Server-Bereich nicht unüblich, und bei Jobs, wo es nicht so auf Durchsatz, sondern auf pure Rechenkraft ankommt die richtige Wahl.
Auf Sockel F wird man aber sehr viel weniger Durchsatzlimitiert sein, da DDR2 667 minimum.
Grüße,
Tom
Bei diesen Brettern ist immer nur ein Sockel mit den Ram-Sockeln verdrahtet:
http://www.geizhals.at/deutschland/a172777.html
http://www.geizhals.at/deutschland/a60066.html
...
Diese Bretter sind im Budget-Dual-Sockel-Server-Bereich nicht unüblich, und bei Jobs, wo es nicht so auf Durchsatz, sondern auf pure Rechenkraft ankommt die richtige Wahl. ... @mocad_tom
Du bist auf dem besten Wege deinen eigenen Thread zu verspämmen. Viele kennen diese Dual-Sockel Gebilde für den K8. Das ist nichts neues!!!
Erzähl lieber mal was es mit deiner Pinbelegung auf sich hat und woher du sie hast. Die Dual-Sockel Geschichte hilft uns nicht weiter, da verrennst du dich in eine Sackgasse. ;)
MFG Boboo(2006)
mtb][sledgehammer
13.02.2006, 21:03
Also ich verstehe mocad_tom sehr gut, ich weiß gar nicht was ihr für Probleme hat.
Zur Pinbelegung: eigentlich müsste doch jeder von euch wissen, dass alle K8 CPUs mehr als 90 Pins benötigen, ergo sollte doch auch ohne genauere Erläuterungen klar werden, dass mocad_tom hier nur erklären will, wie die Verdrahtung im Package prinzipiell laufen müsste.
Welcher Kunde mit einem solchen Multi Chip Package ein Problem haben sollte, weiß ich auch nicht. Entscheidend ist, wie schnell die Dinger wären. Speicherseitig sehe ich da keine Probleme, da ein DDR2-800 Channelähnliche Latenzen wie DDR400 haben sollte und die gleiche BW wie DC DDR400 bietet. Gleichzeitig werden Quad Cores tendenziell niedriger getaktet sein als Dual Cores. Ergo reicht das dicke aus. Ich glaube eigentlich auch kaum, dass man ohne FB-DIMM sinnvoll mehr als zwei DRAM Kanäle mit einem kompakten Sockel/BGA Gehäuse verbinden kann. Mit genügend HT LInks ist auch die Die To Die Kommunikation mehr als angemessen. Übrigens: Ich will an die G5 Monsterwüchse erinnern: 8 Dies auf einem Package: hat da einer gemckert, dass wäre Mist
Natürlich klingt dieses Konzept nicht so elegant wie eine 4-fach SRQ: Aber sie bringt enorme Vorteile: a) man benötigt keine neue SRQ b) der interne FSB (ich will das jetzt einfach mal so nennen) wird nicht zum Flaschenhals c) AMD könnte ohne Monsterdies zu backen früh mit Quad Cores glänzen
[sledgehammer;2599918']Natürlich klingt dieses Konzept nicht so elegant wie eine 4-fach SRQ: Aber sie bringt enorme Vorteile: a) man benötigt keine neue SRQ b) der interne FSB (ich will das jetzt einfach mal so nennen) wird nicht zum Flaschenhals c) AMD könnte ohne Monsterdies zu backen früh mit Quad Cores glänzen
AMD hat ja den Quad-Core schon längst fertig designed.
Als AMD sich erstmals Gedanken über Quad machte hatte Intel sicherlich noch nicht einmal die Multi-Chip Packages in der Entwicklung.
Zudem, wie soll das mit einem shared-L3 funktionieren, wenn beide Pseudo-DIEs darauf zugreifen können müssen ?
Die geänderte SRQ ist ein Argument, könnte aber auch vorzeitiges 'Abfallprodukt' aus der kompletten Renovierung der Hypertransport-Architektur = ab 2008 sein.
mtb][sledgehammer
13.02.2006, 21:42
AMD hat ja den Quad-Core schon längst fertig designed Hast du mit Hector telefoniert, oder warum weist du das so genau?Zudem, wie soll das mit einem shared-L3 funktionieren, wenn beide Pseudo-DIEs darauf zugreifen können müssen ? Tja wie mach denn Intel das mit den beiden Yonah Kernen? Scheint ganz gut zu klappen :]
mocad_tom
13.02.2006, 22:04
@mtb][sledgehammer:
Ich dachte schon ich stehe alleine da - danke.
http://www.the-inquirer.com/?article=29550
>AMD has shown four ways as early as last October behind very closed doors,
>but this will be the first public showing.
@rkinet
Bist du dir sicher, das dieser erwähnte Chip ein 65nm-Chip ist?
Hier eine ziemlich klare Aussage, das der Quad-Core kein 65nm-Chip ist:
http://www.the-inquirer.net/?article=23747
>Well, it is real, there is a four core beastie coming with the F-Step CPUs in Q1. Yes, I said Q1.
Ein zusätzliches Argument fällt mir noch ein:
AMD möchte sicher auch den Ramp des 65nm-Prozesses und den Quad-Core nicht zusammenfallen lassen, dies kann nur schiefgehen. Zeitlich ist AMD in der Zange, deshalb wird Quad-Core in 90nm eingeführt und danach erst geshrinked.
Schritt für Schritt und nicht alles auf einmal.
Grüße,
Tom
[sledgehammer;2599992']Hast du mit Hector telefoniert, oder warum weist du das so genau?
Tja wie mach denn Intel das mit den beiden Yonah Kernen? Scheint ganz gut zu klappen :]
a) Seit der Prescott-Action 2003 und dem Analystentag Nov.2003, wo AMD bereits bestätigte, daß man 90nm A64 schon Monate im Dauertest hatte oder Dezember 2003, wo Details zu Stepping E (das für Single-Core und DC verwendet wurde) auf einer Uni-Präsentation kurz vorgestellt wurde ist die Arbeitsweise bei AMD deutlich geworden.
Entweder hat AMD seit Anf. 2004 seine Ingenieure in monatelangen Zwangsurlaub geschickt, damit man endlich zeitnäher entwickelt oder der lange Vorlauf zwischen Prototyp und Produktvorlauf bleib erhalten.
Wenn man zudem die langfristige Planung beim K8 sieht (wo Dual-Core schon im Grunddesign berücksicht wurde) ist ähnliches für spätere Entwicklungen ebenso zu vermuten. Seit Sommer 2004 war die Entwicklung des Dual-Core abgeschlossen (Präsentation von Prototypen), also konnten die AMD-Entwickler mindestens seit damals am Quad-Core arbeiten.
Das dies nur theoretisch erfolgte und AMD noch kein Silicium dazu hat erscheint da unwahrscheinlich.
Intel arbeitet traditionell anders, wie man aktuell wieder am Chipsatzproblem sieht = aktuelle Chipsätze & Boards sind inkompatibel zum Conroe.
Intel entwickelt just-in-time CPUs, Spezifikationen für Signale & Vcc sowie Busdetails und eben die passenden Chipsätze.
Es langweilt ich aber langsam, daß immer wieder diese Intel-Arbeitsweise mit dem Holzhammer auch auf AMD geprügelt wird.
b) Intels shared L2 erfolgt über eine spezielle Ansteuerlogik auf dem DIE.
Ein shared L3 müßte sowas gesplittet auf den CPU-DIEs und dann noch im shared L3 haben. Ziemlich unüblich und hochkomplex, nur weil AMD 'shared' schrieb und daher nicht einfach zwei Cores mit je einem L3 per Hypertransport aneinnander koppelte.
Diese alternativen Designs haben eben viele Tücken deren Nutzen für AMD fraglich erscheint.
Zudem hat AMD bis zum Stepping F / So.AM2 / F eine aufwendige Hardwareumsetzung der Virtualisierung entwickelt udn kräftig am DIE-Layout gewerkelt. Jetzt beim Quad soll/wird allen wieder improvisiert mit wenig Zusatzgatter auf den Markt geworfen ? Logisch erscheint dies alles nicht.
http://www.the-inquirer.net/?article=23747[/url]
>Well, it is real, there is a four core beastie coming with the F-Step CPUs in Q1. Yes, I said Q1.
Ein zusätzliches Argument fällt mir noch ein:
AMD möchte sicher auch den Ramp des 65nm-Prozesses und den Quad-Core nicht zusammenfallen lassen, dies kann nur schiefgehen. Zeitlich ist AMD in der Zange, deshalb wird Quad-Core in 90nm eingeführt und danach erst geshrinked.
Schritt für Schritt und nicht alles auf einmal.
a) JA - der Quad ist ein 65nm Chip
Es gibt keinen Grund, daß AMF für Stepping F = Pacifica-Stepping noch einen Quad bringt. Der wäre in 90nm einfach zu groß (über 400 mm2) und könnte nur langsam getaktet werden. SOI-65nm mit eSiGe hat einfach einen deutlich niedrigeren Strombedarf.
b) shrink schief gehen ? Selbst bei Intel ist diese Problem eliminiert und das Basisdesign aus der Prototpenentwicklung = D1D wurde 1:1 auf andere Fabs übertragen.
AMD, IBM und Chartered werden eine sehr ähnliche 65nm Technik verwenden.
Die 65nm Technik hat AMD bereits letztes Jahr an Indien für den späteren Einsatz verkauft. AMD, IBM und Chatered fertigen lediglich noch nicht in Serie damit.
Von IBM haben wir aber jüngst erste Daten zum SOI-65nm mit eSiGe erhalten - 6 GHz Spitze bei einem PowerPC6. +50% Takt im Vergleich zu SOI-90nm kann man wohl als Faustregel auch für den K8 ansetzen, wobei letzlich der Markt den gewünschten Mix für Takt und TDP vorgeben wird.
Zudem, 'schief' gehen sollte lt. 'Expertenmeinung' bei planet3Dnow aus Anf. 2004 auch der 90nm Prozess bei AMD.
Viel Strombedarf, geringes Taktpotential und Probleme bei der Einführung ... blablabla.
Für 3,0 GHz, Opteron und 90nm wollte man mich dast steinigen - Anfang Q2'06 kommt der aber jetzt als Opteron 256 in den Handel.
Wer Zweifel an den 65nm Fähigkeiten von AMD hat möge einfach meine alten Antworten zu 90nm nehmen und gut +50% beim Takt und -30% beim Strombedarf einfügen - dann kann man sie für 65nm recyclen.
mocad_tom
16.02.2006, 10:57
Dresdenboy hat schon hier angemerkt:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=2#post2478916
Hier ist ein Flurplan wo Bereiche voneinander abgegrenzt sind, alle bisher bekannten sind soweit auch benannt, nur sind rechts und links oben zwei Felder nicht bezeichnet:
http://www.hkepc.com/bbs/viewthread.php?tid=550652
Es ist nun auch zu hören, das die Rev.F 10Mio Transistoren mehr hat. *kopfkratz
Vielleicht schon die Tag-Rams für den L3-Cache?
*clap* *clap* *clap*
"Tommy du bist der CPU-Gott"
*clap* *clap* *clap*
http://www.the-inquirer.com/?article=29738
>The next gen of AMD FX chips will have the full 'big cache' Opteron level
>of L3 cache, most likely 4MB.
Grüße,
Tom
mocad_tom
16.02.2006, 12:39
Intel attempts dragging quad core Clovertown into 2006
http://www.the-inquirer.com/?article=29749
Intel Kentsfield is four core gaming chip
http://www.theinquirer.net/?article=29735
AM2 FX line to up cache
http://www.theinquirer.net/?article=29738
Ich kann einen 90nm MCM Quad-Opteron mit zusätzlichem L3-Cache förmlich riechen.
Grüße,
Tom
Intel Kentsfield is four core gaming chip
http://www.theinquirer.net/?article=29735
AM2 FX line to up cache
http://www.theinquirer.net/?article=29738
Ich kann einen 90nm MCM Quad-Opteron mit zusätzlichem L3-Cache förmlich riechen.
a) Kentsfield = Tod des Conroe XE 3,33 ?
Beides kann ja nicht kommen, den der Kentsfield würde bei 3,33 GHz und 65nm auf knapp 200 Watt TDP kommen. Nachdem Intel noch einen Northwood XE mit 4* 3,73 präsentieren will, dürften den wir den OC-Conroe wohl nicht erleben.
b) Ich rieche nichts - wozu sollte AMD anfangen in 90nm zu basten, wenige Monate vor den ersten 65nm Waferstart ?
Vier statt zwei Cores werden auch Mitte 2006 nicht für FX-Käufer ein Kriterium sein und der L3 ist erst im Zusammenhang mit performanten Quad von Bedeutung.
Viel wichtiger wird DDR-II 800 oder höher, denn z.B. Win Vista und neuere Applikationen fressen Speicherbytes wie nix weg. Die typ. 2 GByte RAM / Mitte 2006 / high end müssen schnell im Zugriff sein, die lokalen Daten sind nur teilweise wichtig.
Zudem wendet sich AMD gerade per Vcc Absenkung gerade den geringeren TDP zu (http://www.xbitlabs.com/news/cpu/display/20060215195420.html), wozu ein stromhungriger 90nm Quad oder lahme Designs nicht zählen.
Nach den Preissenkungen vom Montag (13.2.) wäre eine langsame 90nm Krücke eh nicht mehr zu vernünftigen Preisen am Markt plazierbar, AMD müßte hier ja mehr DIE-Fläche für weniger Geld verkaufen (im Vergleich zu zwei gut getakteten Opteron 2xx).
AMD hat kräftig wg. Pacifica am Core gearbeit - eine 90nm Quad hätte man nun wirklich mit minimalem Aufwand gleich dazu entwickeln können. UND, alle Vermutungen zum 90nm Quad basieren auf (rein) technischen Problemen bei der Einführung von SOI-65nm eSiGe, was aber bis heute nirgends belegbar beschrieben wurde.
Ok, Intel jagt AMD jetzt auf dem Quad-Core Segment.
Aber wirtschaftlich oder aus Marktgründen ist AMD hier nicht unter Zugzwang.
mtb][sledgehammer
16.02.2006, 16:55
http://www.the-inquirer.com/?article=29738
>The next gen of AMD FX chips will have the full 'big cache' Opteron level
>of L3 cache, most likely 4MB. Das würde dem K8 Kern vor allem im integer Bereich nochmal einen Schub geben, dort wo die PM Chips am stärksten sind. Ich bin auf alle Fälle gespannt :)
... Ich kann einen 90nm MCM Quad-Opteron mit zusätzlichem L3-Cache förmlich riechen. Die Frage ist ... wie?
Der L3 Cache kann durchaus auch mit dem Horus zustande kommen ... ;D
Ein MCM-Modul im Stil von IBM halte ich für sehr unwahrscheinlich, solche kachelgrossen Module passen nicht in die bisherige AMD Infrastruktur. Wenn überhaupt, dann L3 Cache im Stil der Intel "Dual-Cores on 1 Chip-Packingmodul", oder doch gar alles on Die?
mtb][sledgehammer
16.02.2006, 18:47
Also ich glaube kaum, dass man einen Athlon 64 FX mit einem Horus Chipset kombinieren wird, der wird wohl einfach viel zu teuer sein ;)
Dass ein MCM, wie ihn mocad_tom vorschlägt, nicht kachelgroß sein muss haben wir ja schon erörtert.Und wer den Ur Pentium Pro noch kennt, der weiß, dass es auch in ein relativ kompaktes Gehäuse passt:
http://www.sandpile.org/impl/pics/intel/p6/1m_open.jpg
Ich gehe immernoch davon aus, dass es für AMD nicht die optimale Lösung ist, große Dies zu backen.
[sledgehammer;2604437']Ich gehe immernoch davon aus, dass es für AMD nicht die optimale Lösung ist, große Dies zu backen.
Genau, zudem gibt es soviele Hersteller von schnellen Speicher, daß AMD hier wirklich nicht ins Geschäft mit solchen Dingen einsteigen muß.
Beim L3 / seinem Design sollte man aber nicht unterschätzen, daß der ja wirklich viel leisten muß. Per DDR-II 800 packt schon das normale DRAM ca. 12 GByte/s, bei DDR-III sind wir schnell in der Nähe vvon 20 GByte/s.
Der L3 muß also so 20 GByte/s oder mehr packen - beim ATI EDO-RAM sind immerhin sogar 256 GByte/s machbar (http://www.techreport.com/etc/2005q2/xbox360-gpu/index.x?pg=1), allerdings keine Info zu Latenzzeiten.
In Kombination mit schnellem L3 benötigt der Core dann aber auch ein noch schnelleres L2, was aktuell bei weitem nicht realisiert ist (http://www.tecchannel.de/server/hardware/429789/index17.html)
Stepping F hat hier sicherlich zugelegt (allein das DRAM kommt ja schon auf 12 statt 6 GByte/s), aber um vs. externem L3 sich behaupten zu können muß AMD hier kräftig nachlegen.
Dazu könnte der Shrink auf 65nm und nochmals ein anderes L2-Design nötig sein.
mocad_tom
17.02.2006, 13:23
Hans de Vries höchst selbst meldet sich zu Wort:
http://www.aceshardware.com/forums/read_post.jsp?id=115154814&forumid=1
Grüße,
Tom
@PentiumPro-Photo:
Es gibt Leute, die stehen vor der Mona Lisa und denen wird ganz wohlig ums Herz -
bei so schön verlegten Leiterbahnen, angeätzten Chips und goldenen Füsschen lacht mein Herz -
da können nur "Ingenieurs-Künstler" am Werk gewesen sein.
Hans de Vries höchst selbst meldet sich zu Wort:
http://www.aceshardware.com/forums/read_post.jsp?id=115154814&forumid=1
Erklärt aber nicht, weshalb die angeblichen L3-Schnittstellenbereich Pad-frei sind, also man gar nichts daran anschließen kann.
- On board L3 cache.
If it's on-board and remembering Fred Weber statements about "huge L3 caches"
then I would guess AMD would do it "the IBM way", that is: DRAM L3 cache.
In this case the 128 bit memory interface would become the on-board cache
interface to for instance a 1.6 GigaHertz low latency DDR3 cache. (There isn't
that much difference anymore in latency between huge on-chip SRAMs and off-
chip CAS latency.- On board L3 cache.
Wäre bei 128 Bit-Anbindung also gut 1,6 * 128 GBit/s = 25 GByte/s - da ist der ATI-Chip für die XBox aber schneller angebunden (256 GByte/s).
Zudem ist das DRAM bei DDR-II 800 schon bei 12 GByte/s, Faktor 2 erscheint da doch recht marginal. Zudem ist der heutige K8-L2 weit unterhalb 10 GByte/s, der müßte also noch in 90nm kräftig aufgebohrt werden, damit er den L3 übertrumpfen kann bzw. der L3 nicht auf den L2 warten muss.
Da paßen offensicht elementare Daten nicht zusammen. Daß AMD per Stepping F den L2 weitaus performanter zukünftig anbindet erscheint wahrscheinlich.
Dabei muß AMD das DRAM übertrumpfen ohne das am Core selbst signifikant Änderungen nötig sind/waren. So ca. 15-25 GByte bzgl. 90nm L2 könnte machbar sein, nur wozu dann L3 ?
Meiner Meinung nach wird AMD nur zu einem hoch performanten L3-Designs greifen, was aber deutliche Eingriffe in die Datenpfade des K8 zur Folge hat. Hier noch schnell was für 90nm zu versuchen erscheint mir recht verwegen als Vorstellung.
Bei 65nm hingegen ist eh eine Betrachtung aller Signalpfade und deren Optimierung sinnvoll, da könnte man (nebenbei) auch die L2 Anbindung auf 256, 512 oder 1024 Bit erhöhen, dann wird zusätzliches L3 sinnvoll. Dies dann noch ausschließlich für den (echten) Quad-Core (mit einzeln abschaltbaren Cores - schon Stepping F bringts ja sowas) und AMD vergeudet kein Silicium für ungenutzte Features.
Immer schön den Taschenrechner neben den Bildschirm legen - Gruß an die 'Mit-Spekulanten'
mocad_tom
17.02.2006, 15:41
@rkinet
>Wäre bei 128 Bit-Anbindung also gut 1,6 * 128 GBit/s = 25 GByte/s - da ist der
>ATI-Chip für die XBox aber schneller angebunden (256 GByte/s).
Falsch:
http://www.beyond3d.com/articles/xenos/index.php?p=03
GPU zu eDRAM-Bandbreite ist "nur" 32GB/s.
Die 256GB/s-Bandbreite gilt nur innerhalb des eDRAM.
Hier sitzen spezielle Funktionseinheiten, die auf die im Speicher abgelegten Bildausschnitte ausschließlich Anti-Aliasing machen.
Und nur diese Funktionseinheiten sind mit 256GB/s an den eDRAM angebunden.
Grüße,
Tom
/Edit:
Überleg dir mal was du hier überhaupt faselst. Ich beantrage mir jetzt dann einen 256GB/s-DSL-Zugang - gibts sowas überhaupt? Mir egal klingt aber gut.
Hans de Vries höchst selbst meldet sich zu Wort:
http://www.aceshardware.com/forums/read_post.jsp?id=115154814&forumid=1 ...
Netter Link. Is wert zitiert zu werden: My initial guesses:
- New: Two port FBDIMM I/O
Using about half of the 267 extra pins this would allow the large memories
(32 - 128 GByte) that DDR2 and DDR3 can't offer, at the cost of high to very
latency however. Sinniger Grund, und macht später keine Umstellungsprobleme, wenn vorwiegend DDR3 und FB-DIMM beworben wird für Server. -> Gut möglich.
- On board L3 cache.
If it's on-board and remembering Fred Weber statements about "huge L3 caches"
then I would guess AMD would do it "the IBM way", that is: DRAM L3 cache.
In this case the 128 bit memory interface would become the on-board cache
interface to for instance a 1.6 GigaHertz low latency DDR3 cache. (There isn't
that much difference anymore in latency between huge on-chip SRAMs and off-
chip CAS latency. Is mir bislang neu ... aber wenn man genau überlegt eine sehr sinnige und sogar geschickte Umwidmung des Speicherkontrollers für DDR1. Ich gehe persönlich nach wie vor davon aus, dass die Sockel AM2 CPUs (genauer das F-Stepping, oder gar womöglich die E-Revísionen beide Standards beherrschen (DDR1 UND DDR2).
Warum für eine Übergangszeit nicht 1-T-SRAM/EDRAM als Off-Chip L3 Cache?
-> Gut möglich.
- Glueless 32 socket Hyper transport Interconnect.
A fourth HT channel would allow a 2D grid network (Alpha). It would take a
good part of the remaining extra IO pins leaving the rest for Power and GND. Ja in der Tat wäre ein weiterer HyperTransportlink fast so etwas wie die Rückkehr der 4 High-Speed Interconnects vom Alpha "North, South, East, West" ... allerdings hatte der Alpha EV 7 (21364) immer noch einen dezidierten eigenen Chipsatzinterconnect ... AMD wäre also immer noch nicht ganz vergleichbar mit der Alphatopologie. ;D
-> Zwar möglich, aber dank Horus nicht wirklich notwendig. Halte ich jetzt für weniger wahrscheinlich.
- PCI express.
In "less-then-32-socket" systems it might be a good idea to use some of the
(4?) HT channels for PCI Express instead. They mostly overlap functionally
and I would expect the HT and PCI express physical layers to converge over
time. An sich auch ein guter Kandidat, aber:
Damit pinkelt AMD sich damit selber ans Bein, und macht HyperTransport etwas unwichtiger.
Dass sogar noch mehr Übertragungsprotokolle frisch vom Die weg möglich sind beweist RMI (http://www.orthy.de/modules.php?name=Encyclopedia&op=content&tid=340), da ist ein ganzer Blumenstrauss an Schnittstellen. -> Unwahrscheinlich wegen Firmenpolitik.
@rkinet
>Wäre bei 128 Bit-Anbindung also gut 1,6 * 128 GBit/s = 25 GByte/s - da ist der
>ATI-Chip für die XBox aber schneller angebunden (256 GByte/s).
Falsch:
http://www.beyond3d.com/articles/xenos/index.php?p=03
GPU zu eDRAM-Bandbreite ist "nur" 32GB/s.
Die 256GB/s-Bandbreite gilt nur innerhalb des eDRAM.
Hier sitzen spezielle Funktionseinheiten, die auf die im Speicher abgelegten Bildausschnitte ausschließlich Anti-Aliasing machen.
Und nur diese Funktionseinheiten sind mit 256GB/s an den eDRAM angebunden.
Grüße,
Tom
/Edit:
Überleg dir mal was du hier überhaupt faselst. Ich beantrage mir jetzt dann einen 256GB/s-DSL-Zugang - gibts sowas überhaupt? Mir egal klingt aber gut.
Nur '32 GByte/s' sind auch noch Super - da AMD damit ja nicht den L2 abschaffen will (sonst würde das Ding ja nicht L3, sondern L2 heißen) muß der L2 kräftig beschleunigt werden. Ich traue AMD ja bei 90nm einiges noch zu, aber Wunder gibts ohne eine große Renovierung am K8-Core nicht. Dies wiederum ist für 90nm allein schon aus finanziellen Gründen unsinnig und AMD hat seit über 2 Jahren eine 65nm Fab schon im Bau, worauf sich die Quad-Entwickler fixieren konnten.
Wie gehabt - 90nm und Quad /L3 passen nicht vernünftig zusammen.
------------
http://www.planet3dnow.de/vbulletin/showthread.php?t=256321
Der 65nm FX-64 ist schon nahe ... weshalb sollte AMD für 6 Monate ein spezielles Design für Pseudo-Quad raus bringen ?
Zudem das Preisproblem und die interne Konkurrenz.
Ein 2* 2,2 GHz Opteron 275 HE / 55 Watt im Doppelpack für über $2000 ist für Dual-Socket nun wirklich nicht schlecht.
Ein 3* 2,2 GHz Pseudo-Quad dürfte je Doppelcore sogar noch unter 55 Watt verbrauchen müssen, dafür AMD aber auch gerade $2000 bringen. Nachdem für solche CPUs die Käufer Schlange stehen würden, besonders da es ihn ja nur für ca. 1/2 Jahr so gäbe ein unglaublich tolles Produkt. Wenn man die Entwicklungskosten extra für 90nm, die Verschwendung von DIE-Fläche auf den normalen Dual-Cores berücksichtigt ergibt sich eine grandiose rote Zahl für solch ein Vorhaben.
Bleibt also nur Schall und Rauch übrig ...
Dresdenboy
24.02.2006, 09:49
Es wird wieder interessant..
http://theinquirer.net/?article=29890
Über den K8L (oder was auch immer):
The first of these that we have heard about is the server variant, and it will be a killer. It has 2x the floating point units, and sources tell us that it will push about 1.5x the floating point performance of the current chips in the real world.
Es wird wieder interessant..
http://theinquirer.net/?article=29890
Über den K8L (oder was auch immer):
So was ähnliches nur detaillierter hat AMD auch schon verlauten lassen.
Die K8-Linie trennt sich auf je nach Anwendungsfall.
Eine Mobil-CPU wird (in der Paxis) anders bewertet als eine Server-CPU, eben nach minimalsten Strombedarf.
Zwei SSE-Units je Core macht Sinn, wenn die CPU in einem vituellen Modus läuft und so eben dann auf zwei virtuelle Proesse zwei reale SSE-Units und eine (quasi) shared Integer-Unit kommt. Das dann natürlich in 65nm und als Quad-Core, dann würde sich das extra DIE dafür zusätzlich lohnen.
mocad_tom
25.02.2006, 01:30
http://www.planet3dnow.de/vbulletin/showthread.php?p=2193288#post2184495
ich weiß das der K9 als testsample bei AMD, schon den derzeit schnellsten superPi run von einem FX unterbietet.
mehr kann, darf, will und werde ich net sagen.
.......
wenn ich sage schnellster FX, meine ich das auch, also das 3.8GHz monster.
Wie passen dann diese Aussagen mit den News von heute zusammen?
It has 2x the floating point units, and sources tell us that it will push about 1.5x the floating point performance of the current chips in the real world.
Es müsste dann eigentlich mehr dabei rausspringen -> 2 Units + hoher Takt = mehr als doppelt so stark
Oder hat man Komplexität herausgenommen?
Grüße,
Tom
Edit:
Ich hab mir jetzt das Posting vom Skynet nochmal durchgelesen. Er wollte nur andeuten, das der SuperPI des K9 jetzt schon besser ist als SuperPI auf einem SC-K8 mit 3,8GHz - über Taktangaben wurde nichts gesagt.
mtb][sledgehammer
25.02.2006, 14:08
http://www.planet3dnow.de/vbulletin/search.php?searchid=512242
Es müsste dann eigentlich mehr dabei rausspringen -> 2 Units + hoher Takt = mehr als doppelt so stark Der Link funktioniert nicht
Solange AMD in diesem Modell nur die FP Einheiten verdoppelt, kann nicht mehr dabei rauskommen als die 1,5 fache FP Leistung. Denn mehr geben die Decoder einfach nicht her. Aus den SSE2 Packed Befehlen entstehen jeweils 2 Makro Ops. Maximal können die Decoder pro Takt derzeit 3 Makroops liefern. Die derzeitige FPU kann davon 2 pro Takt bearbeiten, bei einer Verdopplung wären es 4, aber wenn nur drei verfügbar sind, haben wir eben nur die 1,5 fache Leistung.
Vorteil wäre bei dieser Erweiterung, dass sie deutlich einfach sein dürfte als ein Redesign des gesamten Cores
Hihi,
nicht viel Neues, aber diesmal schärfer als im November:
http://www.dailytech.com/article.aspx?newsid=958
Viel Spass
Alex
[sledgehammer;2617154']Solange AMD in diesem Modell nur die FP Einheiten verdoppelt, kann nicht mehr dabei rauskommen als die 1,5 fache FP Leistung. Denn mehr geben die Decoder einfach nicht her.
Aus den SSE2 Packed Befehlen entstehen jeweils 2 Makro Ops. Maximal können die Decoder pro Takt derzeit 3 Makroops liefern. Die derzeitige FPU kann davon 2 pro Takt bearbeiten, bei einer Verdopplung wären es 4, aber wenn nur drei verfügbar sind, haben wir eben nur die 1,5 fache Leistung.
Vorteil wäre bei dieser Erweiterung, dass sie deutlich einfach sein dürfte als ein Redesign des gesamten Cores
Wäre natürlich die Frage, ob AMD mittelfristig doch am Core zusätzlich modifizieren will.
Zumindest wäre ein 65nm Quad-Core mit 4*2 SSE-Unit kein Monster-Chip, aber vs. PowerPC oder Itanium bei einigen Applikationen ein brutaler Gegener.
Angesichts der doch zunächst bescheidenen Kundschaft (und sicherlich stolzenPreis des Quad) dürfte AMD eher zur preisgünstigeren Lösung greifen.
8 statt 4 SSE-Unit beim Quad statt zwei Dual-Core, wobei der Quad ja sicherlich eher etwas niedriger taktet, könnte diesen Nachteil wieder auffangen.
Angesichts Red Storm bzw. Cray als Kunde erscheint SSE-Power nicht deplaziert und SUN geht ja beim SPARC eher in die Integer-Leistung per Multi-Core. Könnte also auch hier Performance-Schwerpunkte setzen.
mocad_tom
24.03.2006, 22:38
Endlich wieder in der Zivilisation, in New Zealand schaut es echt übel aus mit Internet, da genießt man so richtig die Vorzüge eines kostenloen WLAN-HotSpots am Airport Bangkok :)
Back to Topic.
Ich bin auch gar nicht mehr so auf dem Laufenden, aber was sehen meine entzündeten Augen:
http://www.hkepc.com/hwdb/am2-4800-1.htm
Es wird keinen simplen Die-Shrink geben, sondern gleich den Schritt K8L+65nm auf einmal - AMD zieht also das Tempo an.
Grüße,
Tom
xxmartin
24.03.2006, 23:21
Es wird keinen simplen Die-Shrink geben, sondern gleich den Schritt K8L+65nm auf einmal - AMD zieht also das Tempo an.
Angesichts von Conroe, Merom, Woodcrest auch notwendig. Der K8L in 65nm mit sehr hohen Taktraten bzw. 4+ Cores sieht vielversprechend aus. Soweit ich das jetzt aus diversen Quellen hier im Topic zusammenfassen kann mit bis zu 2-facher FP-Performance und erheblich gesteigerter INT-Performance aufgrund des bis zu 4 MB großen L3 Cache. Will man hoffen, daß das ausreicht, um Conroe & Co. in die Schranken zu weisen.
mtb][sledgehammer
24.03.2006, 23:24
Ich bin auch gar nicht mehr so auf dem Laufenden, aber was sehen meine entzündeten Augen:
http://www.hkepc.com/hwdb/am2-4800-1.htm
Es wird keinen simplen Die-Shrink geben, sondern gleich den Schritt K8L+65nm auf einmal - AMD zieht also das Tempo an. Danke, dass du mich darauf aufmerksam machst. Habe das vor kurzem noch als große Spekulation angedeutet
http://www.planet3dnow.de/vbulletin/showthread.php?t=109777&page=14#post2651104
Ganz ehrlich, das Bild hatte ich bis dahin noch nicht so genau betrachtet (weiß gar nicht mehr, wann der Artikel neu war :] )
Hiho,
wieder mal neues Spekulationsfutter:
http://digitimes.com/mobos/a20060327A5019.html
Irgendwie vertritt der Artikel die Meinung K8L == Quadcore, seh ich das richtig ??
ciao
Alex
mtb][sledgehammer
27.03.2006, 23:41
Also das steht zumindest in diesem Artikel. Ich kann mir das aber beim besten Willen nicht vorstellen, denn ein Quad-Core ist nunmla keine Alternative für den Desktop.
[sledgehammer;2659840']Also das steht zumindest in diesem Artikel. Ich kann mir das aber beim besten Willen nicht vorstellen, denn ein Quad-Core ist nunmla keine Alternative für den Desktop.
Soweit ich das mitbekommen habe, wurde der K8L noch nirgends im Zusammenhang mit Desktop erwähnt, immer nur wenns um Opterons ging.
mtb][sledgehammer
28.03.2006, 00:49
Offiziell weiß ich gar nichts zum K8L. Wenn es um inoffizielle Informationen geht, wie z.B.
http://www.hkepc.com/hwdb/am2-4800-1.htm
dann wird der Desktop nicht unbedingt ausgeschlossen.
Dresdenboy
30.03.2006, 00:33
Was man wieder unerwartet Interessantes so am Abend auf AH/RWT findet:
http://www.gcn.com/online/vol1_no1/40250-1.html
Kurz: Wollen die tatsächlich 1 Petaflop damit erreichen, heißt das: 4 DP FLOPs/Takt/Core, also doppelter FPU-Durchsatz pro Kern.
Scheint etwas dran zu sein! Dazu kommt, wenn die das auch mit skalaren Operationen einhalten wollen (also nicht nur bei 128 bit SIMD-Befehlen), müsste sich auch etwas an den Decodern getan haben u. da man ja nichts verschenken will (siehe schon K7/K8, wo es von der Zahl der Ausführungseinheiten her kaum einen Engpass gibt), würde man sinnvollerweise auch die Zahl der anderen Einheiten anpassen, also auch mehr Integer-Leistung, nicht nur dank anderer Verbesserungen.
Starcraftfreak
30.03.2006, 11:05
Ich hab schon mal wo gelesen, dass Integer auch ein wenig schneller wird. Nur verdoppelt eben nicht, das bleibt den FP-Einheiten vorbehalten.
Hier sieht man auch, dass AMD bereits Quad-Cores mit 2,6GHz plant, also nicht langsamer als aktuelle Dual-Cores. Der 65nm Prozess scheint ja einiges auf dem Kasten zu haben, gemeinsam mit eSiGe ist da noch einiges möglich.
Dresdenboy
30.03.2006, 11:37
Ich hab schon mal wo gelesen, dass Integer auch ein wenig schneller wird. Nur verdoppelt eben nicht, das bleibt den FP-Einheiten vorbehalten.Stimmt, es gab ja vor längerer Zeit schon so dezente Hinweise, z.B. den von SKYNET zu SuperPi auf dem K8-Nachfolger.
Darauf basierend spekuliere ich mal weiter: Das hieße schonmal gesteigerte x87-Leistung. Es würden wohl schon 4 statt 3 Issue Slots reichen, um z.B. die 4 skalare oder 2 Vektor-SSEn-Operationen pro Takt zu den Ausführungseinheiten zu leiten. Passend dazu könnten wenigstens die Zahl der ALUs und auch die der Decoder auf 4 erhöht werden, obwohl das für die Vektor-SSEn-Befehle nicht wichtig wäre, aber für den Durchsatz der skalaren.
mtb][sledgehammer
30.03.2006, 13:48
Ich denke auch, dass es ein enormer Vorteil wäre, 4 DP Skalar FLOPs/Takt ausführen zu können. Falls dies mit erträglichem Aufwand möglich ist, erwarte ich das dann auch für K8L - verbunden mit den von Dresdenboy angesprochenen Verbesserungen im ALU Teil.
Mittlerweile ist der Core abgesehen von einigen Modifikationen (Erweiterung um SSE(2) und 64 Bit) ja schon fast 7 Jahre auf dem Markt, da ist eine etwas umfangreichere Modifikation, wie von Dresdenboy beschrieben, nicht gerade unwahrscheinlich.
Hab ich eben auf ZDNET gelesen. Klingt natürlich interessant.
Dabei soll Samuel Naffziger und acht seiner Kollegen zu AMD wechseln.
AMD-Sprecher Phil Hughes sagte, dass Naffziger in der Entwicklung von Architekturen arbeiten werde, wollte aber keine weiteren Details bekannt geben.
http://www.zdnet.de/news/hardware/0,39023109,39142427,00.htm
Antarctica
30.03.2006, 14:32
Kaum ist AMD aus den roten Zahlen, leistet es sich auch ein Milliardengrab, oder wie soll ich diesen Wechsel verstehen?
Dresdenboy
30.03.2006, 14:39
Kaum ist AMD aus den roten Zahlen, leistet es sich auch ein Milliardengrab, oder wie soll ich diesen Wechsel verstehen? Ich versuchs mal so: Die Leute dort sollen sehr wahrscheinlich den AMD x86-Serverchips auf den Weg zu noch mehr Rechenleistung verhelfen.
Antarctica
30.03.2006, 15:24
Und du meinst, Itanium-Entwickler seien für x86-Entwicklung prädestiniert? Don't be foolish!
Itanium-Entwickler haben Itanium entwickelt, weil x86 zu wenig Leistung bringt bzw. jede Menge Umwege enthält! Wenn sie x86 aufbohren hätten wollen, hätten sie es sicherlich getan...
mtb][sledgehammer
30.03.2006, 15:39
Der Grund warum Intel (zumindest IMO) Itanium entwickelt hat, bzw. vielmehr IA 64, war es, möglichst einen Standard zu schaffen, der alle Konkurrenten ausgrenzt. Das Problem war eben, dass AMD x86-64 entwickelt hat, welches eine volle Abwärtskompatibilität gewährleistet hat und gleichzeitig den Weg zu 64 Bit geebnet hat. Ergo: Intel hätte gerne die komplette IT Industrie in Milliardenschwere Neuanschaffungen gestürzt, doch die hat sich darüber gefreut, dass dank x86-64 ein deutlich billigerer Pfad in die Zukunft existiert.
Ergo ist der Miserfolg von Itanium genauso wie der letztendliche Miserfolg (ums genauer zu sagen: Northwood war der einzige erfolgreiche Kern der Netburst Reihe) von Netburst auf Marketing und Managementideen gewachsen und der Tatsache, dass Intel AMD mit Sicherheit stärk unterschätzt hat.
Dresdenboy
30.03.2006, 15:48
Und du meinst, Itanium-Entwickler seien für x86-Entwicklung prädestiniert? Don't be foolish!
Itanium-Entwickler haben Itanium entwickelt, weil x86 zu wenig Leistung bringt bzw. jede Menge Umwege enthält! Wenn sie x86 aufbohren hätten wollen, hätten sie es sicherlich getan...Ich möchte mtb][sledgehammer's Antwort noch mit einem technischen Argument ergänzen: Nach den Decodern sind die x86-CPUs auch nur noch VLIW- u.ä. Designs, die EPIC sehr nahe kommen. Und ein schneller FP-Multiplizierer oder Cache ist da noch wesentlich unabhängiger von einer ISA. Der K7 hat ja auch schon Einiges vom Alpha mitbekommen.
Crashman
30.03.2006, 17:33
Mal abgesehen davon sind diese Leute sicher extrem kompetente Ingenieure, die man nicht jeden Tag auf dem Markt findet. Und das beste bei Ingenieuren ist: Sie können sich i.d.R. sehr schnell auf neue Gegebenheiten einstellen.
MfG
Hans Fuchs
30.03.2006, 21:18
Ein verdopplung der FPU und Decoder Einheitenmit mit gleichzeitiger einführung von HT(hyperthreading). Wer doch der Hammer +80 leistung?
Dresdenboy
30.03.2006, 23:01
@Antarctica - Nachtrag:
http://realworldtech.com/forums/index.cfm?action=detail&PostNum=4233&Thread=1&entryID=65315&roomID=11 fasst schon ganz gut zusammen, was es noch alles Schönes im Itanium gibt, was man noch in die AMD-CPUs einbauen könnte ;)
Edit: In einem vor nicht allzu langer Zeit veröffentlichten Patent von AMD zu Trace Caches war noch etwas Interessantes zu entdecken.. und zwar eine Technik, die vorher schon ab und zu in Patenten auftauchte: Code-Optimierung auf dem Prozessor zur besseren Nutzung der intern vorhandenen Befehle bei Umgehung der Beschränkungen durch die x86-ISA. Eingereicht wurde das Patent 2003 und die anderen durchaus schon 2002. Es wäre somit ein möglicher Kandidat für eine Technologie im neuen Core von AMD.
Dresdenboy
25.04.2006, 12:47
Da es ja nichts Conroe-spezifisches ist, hier weitere K8-Nachfolger-Spekulationen meinerseits (hauptsächlich auf Patenten u. wenigen Vorabinformationen/Gerüchten basierend):
Stepping G wird ja sehr offensichtlich nur ein neues Stepping sein, weil sich ggüber v.a. das Design der SRAMs und ROMs änderte, wie auch ein wenig die Anordnung vieler Einheiten (etwas aufgelockerter). Pacifica ist ja schon seit Stepping F enthalten. Evtl. ist schon Presidio enthalten.
Übrigens fiel mir kürzlich auf, dass in frühen K10-Spekulationen (L0-Cache, 1T-SRAM etc.) vllt. doch ein Fünkchen Wahrheit steckte (siehe Z-RAM).
Aber was könnte danach kommen?
Evtl. 4 Decoder, v.a. um die, wie schon spekuliert, verdoppelten FPUs auch "füttern" zu können. Damit einhergehend auch erhöhte Integer-Kapazität, da dadurch ja auch mehr Integer-Befehle pro Takt an die Scheduler weitergeleitet werden könnten. In Patenten nach K7 u. etwa während der K8-Konzeptionierungsphase waren sogar schon Gruppen von 6 Decodern mit 6 Ausführungseinheiten zu entdecken. Dabei tauchten öfters auch schon Pipelines mit 14 Stufen auf.
Spekulative Speicheroperationen (z.B. Umordnung von Lade-/Speicheroperationen, wenn die Bedingungen - z.B. gleiches Adressierungsmuster - auf wahrscheinlich gleiche Adresse hindeuten)
Trace Cache - mit den schon angesprochenen Optimierungen von Code-Fragmenten, welche dort nach erstmaliger Ausführung abgelegt werden, d.h. PARROT/enhanced µOp-Fusion oder wie auch immer man das nennen mag.
Micro-Cores, welche voneinander etwas unabhängig nur Scheduler, Register Files (konsistent gehalten) und Ausführungseinheiten enthalten oder gar von einem zentralen Scheduler mit µOps versorgt werden.
L0-Cache für Befehle in Kombination mit einem L1-Cache mit mehr Wegen und/oder mehr Kapazität, welcher dadurch langsamer wäre.
Multiskalare Prozessoren (unter der Bezeichung "Anti-Hyperthreading" schon diskutiert worden, siehe auch erster Link).
http://www.cs.wisc.edu/~mscalar/overview.html
http://www.digital-daily.com/cpu/amd-roadmap/index02.htm
http://www.theinquirer.net/?article=30042
http://www.theinquirer.net/?article=29890
mtb][sledgehammer
25.04.2006, 18:10
Da will ich doh gerne auch mal wieder meine neueste Spekulation offenbaren: der gezeigte 65 nm Chip hat IMO auch keine verstärkte FPU oder ALU, aber IMO sind es immernoch 4 Dekoder. Und eigentlich halte ich das für einen Zwischenschritt gar nicht so blöd. Schließlich hat der K8 ja 9 Verarbeitungseinheiten, die ingesamt 6 Makro Ops verarbeiten können. Da macht die Aufstockung der Dekoderleistung von 3 auf 4 Makroops alleine IMO schon ein wenig Sinn. Natürlich sieht mann dann nur einen Vorteil, wenn auch ALU und FPU Code gemischt auftritt, aber für so unwahrscheinlich halte ich das gar nicht.
Klar dazu benötigt man natürlich auch 4 parallele Pack Stages, und die Predecoder sollten auch genügend Befehle im L1 Cache halten.
Ansonsten würde ich schätzen, dass AMD einfach mal das ausprobiert hat, ist ja nicht unüblich, dass auf Chips die eine oder andere ungenutze Funktion drauf ist.
Dresdenboy
26.04.2006, 10:54
[sledgehammer;2700419']Da will ich doh gerne auch mal wieder meine neueste Spekulation offenbaren: der gezeigte 65 nm Chip hat IMO auch keine verstärkte FPU oder ALU, aber IMO sind es immernoch 4 Dekoder. Und eigentlich halte ich das für einen Zwischenschritt gar nicht so blöd. Schließlich hat der K8 ja 9 Verarbeitungseinheiten, die ingesamt 6 Makro Ops verarbeiten können. Da macht die Aufstockung der Dekoderleistung von 3 auf 4 Makroops alleine IMO schon ein wenig Sinn. Natürlich sieht mann dann nur einen Vorteil, wenn auch ALU und FPU Code gemischt auftritt, aber für so unwahrscheinlich halte ich das gar nicht.Ich verweise mal auf http://chip-architect.com/news/2003_09_21_Detailed_Architecture_of_AMDs_64bit_Core.html
Neben den 4 µCode-ROM-Blöcken befinden sich immer noch 3 nicht mehr so gut differenzierbare erste Decoderstufen, 3 deutlicher erkennbare Final Decode/Pack-Stufen u. z.B. auch nur 3 Reorder-Buffer-Lanes. Ich habe mal die 2 Letztgenannten hier numeriert:
http://wwwra.informatik.uni-rostock.de/~mw212/pix/AMD65nm_dec.jpg
Ansonsten würde ich schätzen, dass AMD einfach mal das ausprobiert hat, ist ja nicht unüblich, dass auf Chips die eine oder andere ungenutze Funktion drauf ist.Naja, selbst da kann man nicht genau sagen, ob so etwas beabsichtigt war. Wenn man z.B. ein abschaltbares Feature auf einer CPU hat, welche auf den Markt soll, dieses aber noch nicht fertig debuggt werden konnte, wird man ja nicht noch paar Monate opfern, um das entweder fertig zu debuggen oder eine CPU ohne dem Feature zu entwerfen. Time to market.
Allerdings meint auch Hans de Vries, dass der 65nm-Core auch ein früher Prototyp sein kann, weshalb z.B. der L2 etwas verloren wirkt.
mocad_tom
26.04.2006, 11:48
Möchte mal dieses Bildchen in den Ring schmeissen:
http://www.planet3dnow.de/vbulletin/attachment.php?attachmentid=3214&d=1144274889
Zitat Dresdenboy:
....eine Technik, die vorher schon ab und zu in Patenten auftauchte: Code-Optimierung auf dem Prozessor zur besseren Nutzung der intern vorhandenen Befehle bei Umgehung der Beschränkungen durch die x86-ISA. Eingereicht wurde das Patent 2003 und die anderen durchaus schon 2002....
Wenn man etwas Kreativität walten lässt, so lässt sich in dieses Patent auch eine Micro-&Macro-Ops-Fusion mithineinnehmen.
Jon Stokes hat mal wieder einen glänzenden Artikel geschrieben:
http://arstechnica.com/articles/paedia/cpu/core.ars/6
Was mir bisher nicht bewusst war ist der enorme Vorteil bei der Completion Unit. Die zusammengefassten Befehle können auch hinterher gemeinsam als gültig oder ungültig verwaltet werden.
Und wenn man sich die Completion Unit anschaut, so hat sich hier enorm viel getan.
Grüße,
Tom
Dresdenboy
26.04.2006, 12:28
Wenn man etwas Kreativität walten lässt, so lässt sich in dieses Patent auch eine Micro-&Macro-Ops-Fusion mithineinnehmen.Das fällt auch wirklich da mit hinein. In AMD's Patent ist eins der vielen Beispiele sogar so eine Zusammenfassung von Compare/Jump, wie sie beim NGMA im Einsatz ist. Der wirkliche Unterschied besteht wohl in der Komplexität des zusammengefassten Codes, z.B. ob nur bestimmte, direkt aufeinanderfolgende Befehle, wie nur durch ein Flag voneinander abhängen, oder wirklich auseinanderliegende, welche aber mit gleichen Registern/Speicheradressen hantieren.
Jon Stokes hat mal wieder einen glänzenden Artikel geschrieben:
http://arstechnica.com/articles/paedia/cpu/core.ars/6
Was mir bisher nicht bewusst war ist der enorme Vorteil bei der Completion Unit. Die zusammengefassten Befehle können auch hinterher gemeinsam als gültig oder ungültig verwaltet werden.
Und wenn man sich die Completion Unit anschaut, so hat sich hier enorm viel getan.Meinst du letzteres bei deinen Bildern? Zumindest umstrukturiert wurde da. Und AMD arbeitet ja schon mit einigen gefusten Ops ;)
.
.
Edit:
Ein mögliches Patent zum Thema Multiskalare Prozessoren (siehe auch "Anti-Hyperthreading" *g*):
6,574,725
Einfach mal in http://www.pat2pdf.org/ eingeben.
Dresdenboy
26.04.2006, 22:42
Ist hier im Thread schon festgehalten worden, dass der 65nm K8 eine XBar mit 4 Ports für Kerne haben soll? Das kam mir erst gestern oder heute wieder irgendwo unter. Vielleicht finde ich es noch.
Kunibert_KA
26.04.2006, 22:56
Ist hier im Thread schon festgehalten worden, dass der 65nm K8 eine XBar mit 4 Ports für Kerne haben soll? Das kam mir erst gestern oder heute wieder irgendwo unter. Vielleicht finde ich es noch.
Gibt es Ports für Kerne und andere?
Wieviele sind es denn jetzt?
Ich meine jetzt hängen da doch schon 2 Kerne, der Memorycontroller und der Hypertransport dran? Das sind doch schon 4 Teilnehmer?
Wie sieht es eigentlich bei der XBar mit der Bandbreite und der Erweiterbarkeit aus? Sollte man einen FX-Tricore machen wollen oder einen L3 an die XBar koppeln wollen müssten ja schon 5 Teilnehmer gehen? Für Quadcore dann schon 6 oder 7 jenachdem wie der (shared) L3 angebunden wird?
Dresdenboy
27.04.2006, 12:06
Gibt es Ports für Kerne und andere?
Wieviele sind es denn jetzt?
Ich meine jetzt hängen da doch schon 2 Kerne, der Memorycontroller und der Hypertransport dran? Das sind doch schon 4 Teilnehmer?
Wie sieht es eigentlich bei der XBar mit der Bandbreite und der Erweiterbarkeit aus? Sollte man einen FX-Tricore machen wollen oder einen L3 an die XBar koppeln wollen müssten ja schon 5 Teilnehmer gehen? Für Quadcore dann schon 6 oder 7 jenachdem wie der (shared) L3 angebunden wird?Ah, hier (http://www.theinquirer.net/?article=30042) stand das. Aber da wurde wohl nur auf die Quadcores angespielt. Der Tricore wird wohl eher ein Nebenprodukt sein, um aus Dies mit einem nicht funktionierenden Core nicht gleich einen Dualcore machen zu müssen, was dann schon eher Low-End wäre. Eine X-Bar erweitert man eher nicht, sondern entwirft eine für die gewünschten Anforderungen. Sie verknüpft ja nur Datenkanäle miteinander, wie ein Switch. Und dabei wird logischerweise immer die max. Bandbreite des langsamsten Kanals während dieser Übertragung limitierend sein.
Z. B. wesentlich größere X-Bars sind ja im Horus-Chipsatz enthalten. Das sollte auch kaum ein Problem darstellen. Beim Integer-Register-File mit 9 Lese- und 8 Schreib-Ports fragt ja auch keiner, ob das schaffbar ist ;)
Kunibert_KA
27.04.2006, 14:09
Ah, hier (http://www.theinquirer.net/?article=30042) stand das. Aber da wurde wohl nur auf die Quadcores angespielt. Der Tricore wird wohl eher ein Nebenprodukt sein, um aus Dies mit einem nicht funktionierenden Core nicht gleich einen Dualcore machen zu müssen, was dann schon eher Low-End wäre. Eine X-Bar erweitert man eher nicht, sondern entwirft eine für die gewünschten Anforderungen. Sie verknüpft ja nur Datenkanäle miteinander, wie ein Switch. Und dabei wird logischerweise immer die max. Bandbreite des langsamsten Kanals während dieser Übertragung limitierend sein.
Z. B. wesentlich größere X-Bars sind ja im Horus-Chipsatz enthalten. Das sollte auch kaum ein Problem darstellen. Beim Integer-Register-File mit 9 Lese- und 8 Schreib-Ports fragt ja auch keiner, ob das schaffbar ist ;)
Hm nun ja, ich denke das ist nicht umbedingt so. AMD hatte ja schon früh darauf hingewiesen das sie alles für Dualcore ausgelegt haben. Also in meinen Augen bezieht sich das vor allem auch auf die XBar, die sonst im Singlecore ja nicht umbedingt nötig gewesen währe.
Da stellt sich eben jetzt die Frage ob die XBar eine Revison bekommen hat um eben einen dritten Kern, einen L3 oder eben 2 zusätzliche Kerne bedienen zu können.
Wenn die XBar zusätzlich zu den bisherigen 4 Teilnehmern (2 Kerne, Memcontroller, Hypertransport) einen oder 2 zusätzliche Teilnehmer bedienen kann, dann bietet das ja auch einige Möglichkeiten auf den Conroe zu reagieren.
Man könnte eben einen L3 für beide (vier) Kerne an die XBar hängen oder eben einen dritten Kern.
Ein Tricore würde den Conroe nicht im SingleThread schlagen können. Aber im Multitread dürfte er sehr gut aussehen. Ich könnte mir also zB einen 3*2,2 Ghz, 3*512kB L2 durchaus auch in 90nm vorstellen. Der dürfte thermisch, vom Verbrauch und auch von der Größe her doch machbar sein?
So ein Tricore FX dürfte dem Conroe in einigen Benchmarks die Schau stehlen.
Dresdenboy
27.04.2006, 15:27
Hm nun ja, ich denke das ist nicht umbedingt so. AMD hatte ja schon früh darauf hingewiesen das sie alles für Dualcore ausgelegt haben. Also in meinen Augen bezieht sich das vor allem auch auf die XBar, die sonst im Singlecore ja nicht umbedingt nötig gewesen währe.Das könnte auch einfach eine Platzfrage gewesen sein. Das stimmt schon.
Ich habe mal eine simple Erklärung des Aufbaus gesucht u. auf Wikipedia gefunden:
Semiconductor implementations of crossbar switches typically consist of a set of input amplifiers or retimers connected to a series of metalizations or "bars" within a semiconductor device. A similar set of metalizations or "bars" are connected to output amplifiers or retimers. At each cross-point where the "bars" cross, a pass transistor is implemented which connects the bars. When the pass transistor is enabled, the input is connected to the output.
Wenn also die Anbindung eines 2. Cores an die XBar schon (wie bekannt) lange vorgesehen war, kann das auch aus Gründen geschehen sein, wie Vermeidung mehrmaligen Redesigns und Relayouts inkl. Hotspot-Optimierung. Hier geht es ja auch um Signallaufzeiten und die Entwicklungs-Ressourcen waren zu den Zeiten auch knapper.
Da stellt sich eben jetzt die Frage ob die XBar eine Revison bekommen hat um eben einen dritten Kern, einen L3 oder eben 2 zusätzliche Kerne bedienen zu können.
Wenn die XBar zusätzlich zu den bisherigen 4 Teilnehmern (2 Kerne, Memcontroller, Hypertransport) einen oder 2 zusätzliche Teilnehmer bedienen kann, dann bietet das ja auch einige Möglichkeiten auf den Conroe zu reagieren.
Man könnte eben einen L3 für beide (vier) Kerne an die XBar hängen oder eben einen dritten Kern.
Ein Tricore würde den Conroe nicht im SingleThread schlagen können. Aber im Multitread dürfte er sehr gut aussehen. Ich könnte mir also zB einen 3*2,2 Ghz, 3*512kB L2 durchaus auch in 90nm vorstellen. Der dürfte thermisch, vom Verbrauch und auch von der Größe her doch machbar sein?
So ein Tricore FX dürfte dem Conroe in einigen Benchmarks die Schau stehlen.Eine Revision sicherlich, da von der ursprünglichen XBar nichts bezüglich >2 Cores bekannt geworden ist. Aber wie schon geschrieben, der Tri Core (welcher eher ein produktionstechnisches Nebenprodukt ist wie Cell mit 7 SPEs oder der Celeron mit weniger Cache, "TriCore" ist übrigens von Infineon) ist hier nicht so sehr in Betracht zu ziehen wie AMD's kommender Quad Core. Zähle doch einfach mal die Erwähnungen des Tri Cores und die des Quad Cores in Pressemeldungen, CCs, Analyst Days usw.
Jedenfalls spielt es keine so große Rolle, ob da nun 2 Ports dazukommen oder 3 oder 5.. Das ist das, was ich bezüglich Komplexität mitteilen wollte. Vor allem wird es kaum zu einer Entscheidung L3 vs. 3. Kern kommen. Da werden fest 4 Kerne sein, wo einer evtl. defekt ist. Und ein L3 wird vorhanden sein. Da mit steigender Kernzahl ja sonst nur die IMC-Belastung wachsen würde u. die Kerne sich zunehmend gegenseitig behindern würden.
Kunibert_KA
27.04.2006, 16:32
Eine Revision sicherlich, da von der ursprünglichen XBar nichts bezüglich >2 Cores bekannt geworden ist. Aber wie schon geschrieben, der Tri Core (welcher eher ein produktionstechnisches Nebenprodukt ist wie Cell mit 7 SPEs oder der Celeron mit weniger Cache, "TriCore" ist übrigens von Infineon) ist hier nicht so sehr in Betracht zu ziehen wie AMD's kommender Quad Core. Zähle doch einfach mal die Erwähnungen des Tri Cores und die des Quad Cores in Pressemeldungen, CCs, Analyst Days usw.
Jedenfalls spielt es keine so große Rolle, ob da nun 2 Ports dazukommen oder 3 oder 5.. Das ist das, was ich bezüglich Komplexität mitteilen wollte. Vor allem wird es kaum zu einer Entscheidung L3 vs. 3. Kern kommen. Da werden fest 4 Kerne sein, wo einer evtl. defekt ist. Und ein L3 wird vorhanden sein. Da mit steigender Kernzahl ja sonst nur die IMC-Belastung wachsen würde u. die Kerne sich zunehmend gegenseitig behindern würden.
Ich habe mir auch nicht so die Frage der normalen Weiterentwicklung gestellt, sondern gefragt was AMD tun kann wenn sie schnell auf den Conroe reagieren müssen.
Ich meine wenn der Conroe gut verfügbar ist und sich gut takten lässt und die Erwartungen erfüllt, dann sieht die AMD Produktpalette zumindest auf dem Desktop nicht gut aus.
Wenn jetzt 65nm noch keine gute Ausbeute und Taktraten bringt was kann AMD dann tun? Größere Änderungen am Kern sind nicht so schnell machbar oder dauern noch.
Da erscheint mir die einfachste und schnellste Möglichkeit (neben Taktsteigerung) den Cache zu vergrößern (was ihn aber wohl auch langsammer machen würde) oder eben zumindest für die FX bzw die Benchmarks einen L3 oder eben einen weiteren Kern dazuzunehmen. Beides dürfte vom Layout her nicht so kompliziert sein und von der Größe her auch in 90nm gehen. Für den Desktop würde ein 3. Kern mehr bringen als ein L3.
Ein echten Quadcore in 90nm sehe ich aber nicht. Der Tricore würde also nur etwas für Highend in 90nm sein bis 65nm Quadcore liefern kann bzw ein neues Design (K8L) fertig ist.
Ich meine das könnte den FX mal wieder wirklich von den normalen CPUs unterscheiden und würde zumindest in den Reviews dann Intel einiges vermasseln.
(...)
Ich meine wenn der Conroe gut verfügbar ist und sich gut takten lässt und die Erwartungen erfüllt, dann sieht die AMD Produktpalette zumindest auf dem Desktop nicht gut aus.
Wenn jetzt 65nm noch keine gute Ausbeute und Taktraten bringt was kann AMD dann tun?
Das sind irgendwie zuviele "Wenns" (verbunden mit vielen "unds") um irgendwie sinnvoll antworten zu können. Ich halte es mal mit der AMD Aussage, dass sie ein "moving target" sind, also nicht blöd rumstehen und zuschauen werden, wie Intel vorbeizieht.
Ist wie beim Pokern, Intel hat aus Zugzwang die Karten auf den Tisch gelegt. AMD sitzt jetzt da und schaut lachend in die eigenen Karten, lässt aber (noch) keinen reinschauen.
Da gibts jetzt 2 Möglichkeit:
a) AMD blufft
b) AMD hat wirklich gute Karten
Genaueres weiss man nicht, das einzige was wir haben ist ein verwaschenes K8L(?) Die Photo, welches auch nicht gerade viel Erhellendes gebracht hat.Nochdazu weiss man nicht, ob es wirklich ein K8L war/ist, oder nur irgendein Prototyp, vielleicht sogar nur ein CAD Entwurf, wie sich denn die neune L2 Cache Zellen auf die Gesamtfläche auswirken.
Aber da gehts auch schon wieder mit dem Konjunktiv los ..
Also bleibt nichts andres als abzuwarten, bis einer bei AMD kibitzen darf, bzw. die Karten auf dem Tisch kommen.
ciao
Alex
xxmartin
27.04.2006, 22:25
Ist wie beim Pokern, Intel hat aus Zugzwang die Karten auf den Tisch gelegt. AMD sitzt jetzt da und schaut lachend in die eigenen Karten, lässt aber (noch) keinen reinschauen.
Da gibts jetzt 2 Möglichkeit:
a) AMD blufft
b) AMD hat wirklich gute Karten
Gut gesagt.
Dresdenboy
28.04.2006, 09:41
Damit der Thread nicht zu weit abrutscht... ;)
Auf Aces habe ich mal etwas geposted (http://aceshardware.com/forums/read_post.jsp?id=115162890&forumid=1), was ich vor Kurzem entdeckte. Und zwar sieht das US-Patent Nr. 6,944,744 sehr nach der bereits spekulierten K8L-FPU aus..
Eingereicht wurde es August 2002, würde zeitlich also in den entspr. Rahmen passen. Das erwähnte Trace-Cache-Patent (nicht das erste von AMD) mit Code-Optimierung wurde z.B. 1 Jahr später eingereicht.
Also wie sieht die beschriebene FPU aus:
Die FP-Recheneinheiten wurden auf 128 bit erweitert, Anzahl u. Konfiguration wie beim K8
Es gibt 128 bit µOps, neben 64 bit µOps (letztere wie gehabt).
Teile einer Einheit können parallel auch kleinere Operationen durchführen (z.B. zwei 64 bit skalare FMULs).
Das würde weiterhin mit 3 Decodern funktionieren, was wiederum bedeutet: keine höhere Integer-Leistung, wie weiter oben spekuliert.
Zum Anschauen des Patents:
http://www.pat2pdf.org/
http://patft1.uspto.gov/netahtml/PTO/srchnum.htm
Hiho,
@martin: Danke :)
Zum Thema pokern ... das Thema wird immer mysteriöser. Beim Inquirer postet Charlie Ausdrücke des Tages von Intel (http://www.theinquirer.net/?article=31323)& AMD (http://www.theinquirer.net/?article=31325). Das Intelwort zielt demnach auf einen Quadcore chip / Codenamen. Schön und gut, darunter kann man sich was vorstellen. AMDs Wort dagegen ist "Bulldozer", und man solle es seinem AMD Repräsentanten sagen, und Ihm dann beim Grinsen/Lachen zuschauen... also sehr komisch und sehr schwammig vormuliert... *suspect* *suspect* *suspect*
Die Interpretation, die sich natürlich aufzwänge ist die, dass AMD ein Ass im Ärmel hat, das alles von Intel niederwalzt. Könnte ja ein Codename sein. Dass wäre wohl ähnlich "brutal" wie Claw/Sledgehammer oderaber Charlie war nur langweilig und er verar**** uns gewaltig *lol*
Aber ok, das ist schon wieder viel zu viel Kaffeesatzleserei, sorry.
Mal wieder zum Technischen (und Danke an Dresdenboy für unermüdliche Patentwäzerei :) : (...)
Also wie sieht die beschriebene FPU aus:
Die FP-Recheneinheiten wurden auf 128 bit erweitert, Anzahl u. Konfiguration wie beim K8
Es gibt 128 bit µOps, neben 64 bit µOps (letztere wie gehabt).
Teile einer Einheit können parallel auch kleinere Operationen durchführen (z.B. zwei 64 bit skalare FMULs).
Das würde weiterhin mit 3 Decodern funktionieren, was wiederum bedeutet: keine höhere Integer-Leistung, wie weiter oben spekuliert.
Kurz gesagt: Die FPU kann genauso wie Intels Conroe Derivate 128bit in einen Rutsch verarbeiten, oder ? Da es dann mehr µOps gibt, von denen bestimmt nicht alle hartverdrahtet ausgeführt werden, könnte man damit eventuell auch das 4. MicroCode ROM erklären, oder seh ich das falsch ?
ciao
Alex
Dresdenboy
28.04.2006, 13:16
Kurz gesagt: Die FPU kann genauso wie Intels Conroe Derivate 128bit in einen Rutsch verarbeiten, oder ? Da es dann mehr µOps gibt, von denen bestimmt nicht alle hartverdrahtet ausgeführt werden, könnte man damit eventuell auch das 4. MicroCode ROM erklären, oder seh ich das falsch ?Ja, die volle 128bit-Verarbeitung ist Punkt 1, Punkt 2 (und Vorteil gegenüber NGMA), dass so eine Einheit auch in einem Takt mehrere "kleine" Befehle (z.B. skalarer SSE2-Code) ausführen kann.
Das 4. MicroCode-ROM würde ich eher auf Pazifica schieben, aber nichts Genaues weiß man nicht ;)
Ja, die volle 128bit-Verarbeitung ist Punkt 1, Punkt 2 (und Vorteil gegenüber NGMA), dass so eine Einheit auch in einem Takt mehrere "kleine" Befehle (z.B. skalarer SSE2-Code) ausführen kann Hm, also ich denke langsam, dass Du da einen Treffer gelandet hast, schließlich gabs ja auch schon früher die (zugegeben vom Inquirer) Gerüchte (http://www.theinquirer.net/?article=29890), dass beim K8L die FPU "verdoppelt" wäre, da man da aber nicht viel von der doppelten Fläche sieht, war die Aussage wohl auf das von Dir gefundene Patent gemünzt. 2x64bit gibt ja schließlich auch den doppelten Durchsatz (wobei der Inquirer von 1,5x facher Leistung spricht).
ciao
Alex
nonworkingrich
28.04.2006, 19:16
Also ich betätige mich auch mal an den Spekulationen um das ominöse (Un-)Wort des Tages - hab mich sogar eigens dafür registriert:
Ich halte mich gar nicht lange an dem Wort und an der Farbe auf, sondern gehe gleich über zur Zahl: e^3i
Wenn man das ganze liest, hört sich das so an: e to the power of three i
Wenn man das e als Abkürzung für equivalent deutet und i für Intel, drängen sich zwei mögliche Interpretationen auf:
a) AMD hat ein As im Ärmel, und zwar ein ganz dickes. Ein Wunderchip, der die dreifache Leistung des Intel-Gegenstücks (Conroe? Kentsfield?) bietet. Nachdem es mit Intel in letzter Zeit schon tüchtig bergab ging, soll dieser "Bulldozer" die Company aus Santa Clara nun buchstäblich plattmachen.
b) AMD hat bei der Weiterentwicklung des K8 völlig versagt und ein Monstrum entworfen, das nur minimal schneller als die bisherigen ist (oder sogar langsamer, 'AMD does the Prescott'), aber dreimal soviel Strom verbraucht wie Intels NGMA. Die Konzernleitung hat angesichts des unabwendbaren Niedergangs schonmal die Bulldozer bestellt, um die paar Fabs einzuebnen.
Any other suggestions?
Die Frage
28.04.2006, 20:24
Ich habe eher das Gefühl, das AMD kurz bzw. mittelfristig was völliges Neues bringen wird.
Mir kann keiner sagen, das sie, seit der Einführung des Athlon64, auf der faulen Haut saßen.
Intel ist mächtig unter Druck geraten und das sieht man auch deutlich. Nicht umsonst hört man jede Woche, die Wundernachrichten von Intels neuen Chip.
Intel stet unter Zugzwang!!!
Schaut man sich die News von AMD der letzten Wochen und Monate (Co-Prozessor, Z-RAM, HyperTransport etc), an, so könnte man eventuell den Eindruck bekommen, das AMD an was ganz anderen Arbeitet, als Intel
Misch x86 Prozessoren
Was würde AMD abhalten, Misch x86 Prozessoren herzustellen mit mehreren x86 Kernen und vielen kleinen schnellen, hochspezialsistierten DSPs?
Eine Aufgabe der x86 Kerne wäre, die DSP schnell genug mit Daten zu füttern und gegebenenfalls, den x86 Maschinencode für die DPS anzupassen.
Man braucht wohl nicht sagen, das solch eine CPU, eine gewöhnliche x86 CPU bei encoden von HD-Material, mühelos versenken könnte.
Vielleicht, werden wir so was in Zukunft sehen!
Und wenn ich jetzt davon ausgehe, dass das ganze mal so beim PC funktioniert wäre es dann nicht am inteligentesten die vielen kleinen untercores auf bestimmte Aufgaben zu spezialisieren... einen für integer einen für fließkomma (halt die sachen, die auf jeden fall benötigt werden)
mein reden... wer konnte denn ahnen das die speklationen wirklich in die richtung gehn.... 8)
@ Die Frage:
Ich hoffe es, so langsam geht mir die AMD Untergangsstimmung in vielen Foren gehörig auf den Senkel. Auch wenn es nur Fanboy Gelaber ist, aber so eine Stimmung verbreitet sich schnell weiter.
Besonders schlimm: Computerbase
http://www.computerbase.de/news/hardware/prozessoren/2006/april/intel_core_amd_k8_3dmark05-duell/
Ich will damit nur sagen, hoffentlich hat AMD "etwas in der Hinterhand" und lässt uns nicht zu lange warten.
mtb][sledgehammer
28.04.2006, 23:57
Ich bin ja immer geneigt dazu zu sagen, dass AMD seit Juni 1999, also dem Lauch des Ur Athlon, nichts wirklich Neues gebracht hat. Denn im Kern steckt auch heute noch diese 7 Jahre alte 3fach multiskalare Architektur drin. Klar, AMD hat den Chip entwas getunt, aber im Kern hat sich nicht mehr verändert als zwischen Willamette und Presler. Es kamen ein paar SIMD Befehle daz und der 64 Bit Teil, der Rest wie Northbridge, HT-Links, IMC, Data Prefetching, schnellerer Cache: das alles sind eher Module die von außen drangepeppt wurden.
Insofern Tritt Intels NGMA gegen einen 7 Jahre alten Kern an, das ist ein ähnliches Verhältnis wie beim Kampf Pentium 3 gegen Athlon, damals hatte der P6 Kern schon 4 Jahre auf dem Buckel.
Die Frage
29.04.2006, 02:03
[sledgehammer;2705779']Ich bin ja immer geneigt dazu zu sagen, dass AMD seit Juni 1999, also dem Lauch des Ur Athlon, nichts wirklich Neues gebracht hat. Denn im Kern steckt auch heute noch diese 7 Jahre alte 3fach multiskalare Architektur drin. Klar, AMD hat den Chip entwas getunt, aber im Kern hat sich nicht mehr verändert als zwischen Willamette und Presler. Es kamen ein paar SIMD Befehle daz und der 64 Bit Teil, der Rest wie Northbridge, HT-Links, IMC, Data Prefetching, schnellerer Cache: das alles sind eher Module die von außen drangepeppt wurden.
Insofern Tritt Intels NGMA gegen einen 7 Jahre alten Kern an, das ist ein ähnliches Verhältnis wie beim Kampf Pentium 3 gegen Athlon, damals hatte der P6 Kern schon 4 Jahre auf dem Buckel.
Das stimmt schon.
Nur muss sollte man davon ausgehen, das zukünftige Prozessoren wieder auf die PIII Architektur aufbauen. Der PM baut ebenfalls auf diese auf.
Die einzige, grundlegend, neue Architektur, war der PIV. Man sieht am PIV besonders gut, dass neue Architekturen, nicht das Versprechen, was man davon erwartet.
Im Endeffekt wird es wie folgt aussehen.
Intel setzt auf die PIII Architektur, AMD auf die Athlon Architektur.
Man sollte auch hier sagen, das die neuen Prozessoren mit ihrer Urfassung, wenig gemein haben, werden.
Und dieses Fanboy Gelaber sollte man ignorieren.
Es sind, meistens Kinder, die nicht wissen, wo Luxemburg liegt.
Man sollte AMD nicht so naiv halten, das sie nicht gewusst hätten, das Intel mal zurückschlagen wird. Ich denke, es war für alle Beteiligte überraschend, das Intel dafür so lange gebraucht hat. (Bisher ist noch nichts passiert)
Es sind verschiedene Szenarien möglich, wie AMD reagieren wird, bzw. was Intel macht.
Darüber zu diskutieren, wäre müßig.
Das beste wäre, das wir in Naher Zukunft in etwa gleich stärke Chipschmieden hätten. Für uns, wäre es das Beste.
Bisschen mehr Auswahl, als derzeit wäre zu begrüßen. Als netter Nebeneffekt, wäre der Preis für CPUs wieder stabilisiert.
mocad_tom
29.04.2006, 10:03
[sledgehammer;2705779']Klar, AMD hat den Chip entwas getunt, aber im Kern hat sich nicht mehr verändert als zwischen Willamette und Presler. Es kamen ein paar SIMD Befehle daz und der 64 Bit Teil, der Rest wie Northbridge, HT-Links, IMC, Data Prefetching, schnellerer Cache: das alles sind eher Module die von außen drangepeppt wurden.
http://www.a1-electronics.net/AMD_Section/CPUs/AthlonXP_3000+_Feb03.shtml
Wenn man sich den Kern des Barton ansieht und den des K8 springen einem unweigerlich Parallelen ins Auge. Man kann an jeden einzelnen Transistor immer wieder Hand anlegen, bis er schließlich wirklich passt gibts eine Menge zu tun ;) - der gute alte Kern skaliert jetzt schon von 700MHz bis 3.0GHz.
Man kann die Building-Blocks nicht immer wieder umschmeissen und von vorne Beginnen.
>....der Rest wie Northbridge, HT-Links, IMC, Data Prefetching, schnellerer Cache:
>das alles sind eher Module die von außen drangepeppt wurden.....
Eine vernünftige Cache-Hierarchie ist das A und O. Wenn die Int- und FP-Units nicht vernünftig gefüttert werden können die noch so schnell rennen und 10 Operationen pro Cycle machen - bringt aber nix.
Das von Dresdenboy gefundene Patent ist ein Schritt zur Effizienzsteigerung der FPUs. Der K8L wird komischerweise nur ein weiteres Stepping - das G-Stepping. Hätte ich nicht erwartet, ich dachte das wieder von vorne mit dem Zählen begonnen wird.
Phil Hester hat in einem Interview davon gesprochen, das jeder Ingenieur nur ein gewisses Transistor- und Power-Budget erhält. Sie alle müssen also knausern. Ich stelle mir Design-Meetings in etwa so vor wie Bundes-Minister-Runden.
Der Verkehrsminister sagt ich will 10Mrd€, der Verteidigungsminister sagt ich will 10Mrd€, der Umweltminister sagt ich will 10Mrd€, der Finanzminister sagt Ihr kriegt nichts.
Meiner Meinung nach wird der K10 auch ein ganz knausriges Design, siehe Bild-Anhang.
Transistormässig wird dieser nicht sehr viel mehr auf die Waage bringen wie zwei heutige K8L-Kerne. Der K8L wird meiner Meinung nach eine Vorstufe sein. Der Decoder und die L/S-Unit des K8L werden im K10 verwendet, natürlich noch etwas aufgebohrt. Diese "Code-Optimierung auf dem Prozessor"(Mikro/Makro-Op-Fusion) wird stark vorangetrieben.
Dieses Anti-Hyperthreading kann ich mir beim besten Willen nicht über Die-Grenzen hinweg vorstellen. Der K10 wird eine Dual-Core-CPU, wo die Int-Units und die FPUs von beiden Kernen genutzt werden. Ein L1-to-L1-Datenabgleich mit inbegriffen.
Grüße,
Tom
raven-666
29.04.2006, 10:07
Also ich betätige mich auch mal an den Spekulationen um das ominöse (Un-)Wort des Tages - hab mich sogar eigens dafür registriert:
Ich halte mich gar nicht lange an dem Wort und an der Farbe auf, sondern gehe gleich über zur Zahl: e^3i
Wenn man das ganze liest, hört sich das so an: e to the power of three i
Wenn man das e als Abkürzung für equivalent deutet und i für Intel, drängen sich zwei mögliche Interpretationen auf:
a) AMD hat ein As im Ärmel, und zwar ein ganz dickes. Ein Wunderchip, der die dreifache Leistung des Intel-Gegenstücks (Conroe? Kentsfield?) bietet. Nachdem es mit Intel in letzter Zeit schon tüchtig bergab ging, soll dieser "Bulldozer" die Company aus Santa Clara nun buchstäblich plattmachen.
b) AMD hat bei der Weiterentwicklung des K8 völlig versagt und ein Monstrum entworfen, das nur minimal schneller als die bisherigen ist (oder sogar langsamer, 'AMD does the Prescott'), aber dreimal soviel Strom verbraucht wie Intels NGMA. Die Konzernleitung hat angesichts des unabwendbaren Niedergangs schonmal die Bulldozer bestellt, um die paar Fabs einzuebnen.
Any other suggestions?
die antwort b.) ist genial, ich breche vor lachen...
Also ich betätige mich auch mal an den Spekulationen um das ominöse (Un-)Wort des Tages - hab mich sogar eigens dafür registriert:
Ich halte mich gar nicht lange an dem Wort und an der Farbe auf, sondern gehe gleich über zur Zahl: e^3i
Wenn man das ganze liest, hört sich das so an: e to the power of three i
Wenn man das e als Abkürzung für equivalent deutet und i für Intel, drängen sich zwei mögliche Interpretationen auf:
a) AMD hat ein As im Ärmel, und zwar ein ganz dickes. Ein Wunderchip, der die dreifache Leistung des Intel-Gegenstücks (Conroe? Kentsfield?) bietet. Nachdem es mit Intel in letzter Zeit schon tüchtig bergab ging, soll dieser "Bulldozer" die Company aus Santa Clara nun buchstäblich plattmachen.
b) AMD hat bei der Weiterentwicklung des K8 völlig versagt und ein Monstrum entworfen, das nur minimal schneller als die bisherigen ist (oder sogar langsamer, 'AMD does the Prescott'), aber dreimal soviel Strom verbraucht wie Intels NGMA. Die Konzernleitung hat angesichts des unabwendbaren Niedergangs schonmal die Bulldozer bestellt, um die paar Fabs einzuebnen.
Any other suggestions?
a) ist unrealistisch (Woher nehmen, wenn nicht stehlen ;D ), eine Verdreifachung wäre taktisch unklug zubauen/ verkaufen. Lieber über ein paar Jahre 30% mehr Speed als die Kunkurenz und den rest als Reserve in der Hinterhand.
b) ist daneben, da das Projekt K9 vor ca. 2 Jahren eingestellt wurde, dieser sollte Intels versprochenen Takt- Wundern nacheifern. Außerdem mussten Sie nicht wissen was sie tuen.
Also bisher war der K7 dem PIII überlegen, der K8 dem Centrino (manche werden das abstreiten wollen... aber OC'en gilt nunmal nicht). Damit sieht es für den K8L gegen den Conroe nicht schlecht aus ;)
Meiner Meinung nach stellt sich nur noch die Frage(n), wann (genau) der K8L kommt und wieviel der schneller der zum Vergleich zum K8/ Conroe ist.
würd das garnicht so unklug finden.... die konkurrenz geht pleite weil bei 3-facher Leistung (bei gleichem Stromverbrauch) einfach nieeeemand mehr was anderes kauft, dann haben sie nen Monopol und machen eine art Microsoft für Hardware auf (blos das das besser ist, denn Hardware lässt sich nicht so easy raubkopieren ;) ).
AMD soll ATI Entwickler abgeworben haben...
http://www.teccentral.de/forum/showthread.php?t=51984
Die Begründung von Teccentral lassen wir mal so im Regen stehen. *lol*
Laut dem Post kommt 2007 der K9, da soll doch schon der K8L kommen, dann wäre doch der K8L über flüssig zumal der K9 eigestampft wurde...
ist dies ist absolut Sinnlos :]
raven-666
02.05.2006, 11:47
ich glaube nciht, daß man in 12 monaten eine neue architektur aus dem boden stampfen kann.
Dresdenboy
02.05.2006, 12:00
Das stimmt, raven-666.
Es wird auch nicht einfach eingestampft u. schnell etwas anderes gemacht.. Solche Entscheidungen fallen mehrere Jahre vor dem Erscheinen auf dem Markt.
Man sollte vllt. die Kx-Bezeichnungen weniger ernst nehmen. Mal heißt es, K9 ist der aktuelle DC, dann ist es der Nachfolger, dann ist K9 ganz weg u. K10 der Nachfolger u. K8L eine Modifikation oder doch der K9 mit anderer Bezeichnung, weil die Änderungen nicht so groß, oder K11 kommt vor dem K9 und K10 wird mit 2 multipliziert.. :D
Ich warte diesbezüglich erstmal bis Juni ab und schaue mir höchstens weiter Patente an, weil die öfters mehr verraten (vor allem in Form von Schnittmengen der beispielhaft vorgestellten Architekturen) als alle Gerüchte-Seiten (angeführt vom INQ) zusammen, wobei die Trefferquote des INQ doch nicht so schlecht ist.
mocad_tom
03.05.2006, 10:02
Roadmap bis 2009 aufgetaucht:
http://pc.watch.impress.co.jp/docs/2006/0503/kaigai267.htm
Grüße,
Tom
raven-666
03.05.2006, 10:23
so, einige fragen die sich hier stellen:
90nm rev. F ist klar, AM2 oder S1, DDR2 support, nebst anderem....
was mir nicht klar ist: K8 new core, soll das der hier im forum bekannte K8L sein, das kommt mir reichlich spät vor, oder soll K8L die rev. G sein, was mit Q1/2007 ganz gut klingen würde, vor allem in Konkurrenz zum Conroe, bin neugierig, was er in der Praxis wirklich kann.....
so, einige fragen die sich hier stellen:
90nm rev. F ist klar, AM2 oder S1, DDR2 support, nebst anderem....
was mir nicht klar ist: K8 new core, soll das der hier im forum bekannte K8L sein, das kommt mir reichlich spät vor, oder soll K8L die rev. G sein, was mit Q1/2007 ganz gut klingen würde, vor allem in Konkurrenz zum Conroe, bin neugierig, was er in der Praxis wirklich kann.....
Rev. G ist das, was man auf den 65 nm Die Shot gesehen hat und dort befindet sich nach allen Analysen noch keine drastisch überarbeitete FPU.
mocad_tom
03.05.2006, 22:23
Als erste K8L-Inkarnation kommt wohl ein normaler Dual-Core - Brisbane/Tyler(Mobil).
Was deutlich wird:
K8L wird ein sparsamer Kern -> man beachte den 11W Single-Core-K8L evtl. auch durch den 65nm-Prozess.
Deerhound kommt spät, ich hätte ihn im April erwartet - zum 4.Geburtstag des Hammer-Cores. Wo ist der Sockel AM2-Quad-Core? Der fehlt total.
Die kleinste Variante des K10 ist ein Dual-Core, damit verhärtet sich mein Verdacht, das beim K10 die Einheiten so stark miteinander verzahnt sind, das ein Teildefekter Single-Core nicht mehr möglich ist.
Der erste K10 erscheint als Dual-Core noch ende 2007 für den Desktop- und Mobil-Markt gleichzeitig - evtl. ein Anzeichen dafür, das der Desktop-Chip ein Ableger des Mobil-Chips ist und der Server-K10 sich etwas stärker von diesen beiden unterscheidet.
Evtl. besitzt der Server-K10(Zamora) zusätzlich zum Anti-HT noch SMT. Damit kann ein K10-Kern-Verbund 4 Threads gleichzeitig ausführen. Zamora könnte somit 8 Threads gleichzeitig ausführen, da Zamora zwei Server-K10 beherbergt.
Wann möchte eigentlich AMD auf 45nm umstellen - Anfang 2009?
Grüße,
Tom
Kunibert_KA
03.05.2006, 23:22
Rev. G ist das, was man auf den 65 nm Die Shot gesehen hat und dort befindet sich nach allen Analysen noch keine drastisch überarbeitete FPU.
Also auf aces wird Rev. G = K8L gehandelt.
Das bedeutet dann wohl auch das es eben eher eine Revsion vom Umfang ist als etwas größeres.
Wie kommst du daruf das auf dem 65nm Die Shot die Revision G zu sehen ist? Ich finde das Die Shot sieht sehr unoptimiert aus. Sehr viele freie Flächen etc.
Ich würde sagen da ist eher ein Shrinktest ohne viele/alle Optimierungen etc. zusehen.
Für K8L wurde ja auch eher die 1,5-fache FP-Leistung gehandelt. Nicht umbedingt eine Verdoppelung der FP-Einheiten.
Daher würde ich eher darauf Tippen das durch bessere Cacheanbindung, veränderte Decoder, load/store -Optimierungen die 1,5 fache Leistung erreicht wird. Also bessere Auslastung als mehr Einheiten. Unklar ist ja auch noch was unter der eingefärbten Fläche sein wird.
mocad_tom
04.05.2006, 00:22
http://www.the-inquirer.com/?article=29890
AMD has been talking up specialised laptop chips, and other things that seem to differ more from each other than the current Turion/A64/Opteron mix.
The first of these that we have heard about is the server variant, and it will be a killer. It has 2x the floating point units, and sources tell us that it will push about 1.5x the floating point performance of the current chips in the real world.
Vielleicht ist dies ein Die-Plot von der Laptop-Variante. Evtl. die 11W Version.
Grüße,
Tom
Kunibert_KA
04.05.2006, 00:45
Also was ich generell vermisse sind Ausblicke in die Zukunft.
AMD muss ja keine vereinfachenden Marketingkampagnen a la Intel machen. AMD hat davon gelebt das die technisch Interessierten AMD gekauft haben und auch verbreitet haben.
Diese Leute wollen aber Futter haben über das dann zb hier debatiert werden kann.
Das wird aber seit geraumer Zeit kaum noch geliefert. Die Doku etc. ist auch nicht mehr so aussagekräftig.
Ich frage mich was da los ist?
Hat man Angst das Intel auf Grund ihrer Fähigkeiten veröffentlichte Ideen schneller umsetzen kann?
Oder hat man einfach nichts? Ich meine wenn sie nichts haben, dann muss ja etwas gehörig in die Binsen gegangen sein, da sie ja einige Zeit hatten etwas zu entwicklen.
Also einen hochgetakteten Nachfolger für den K8 der nach den Intelstopps und Marktveränderungen(Stromstaren, leise etc.) gecancelt wurde? Und jetzt keine Alternative?
Oder hat sich der K8 so gut entwicklet das man eine Genration die wenig Vorteil gebracht hätte überspringt?
Ich finde die verdreifachung der Entwickler und die Zukäufe deuten eher darauf hin das man zur Zeit nicht wirklich etwas hat, das fast fertig ist.
Also K8 durch viele Leute weiter ausquetchen und durch zukäufe optimieren/erweitern anstatt etwas wirklich neues?
Also ich finde wirklich das AMD weder einen kurzfristigen Ausblick bietet noch Visionen und Zukunftskonzepte zeigt.
Treverer
04.05.2006, 02:34
Also was ich generell vermisse sind Ausblicke in die Zukunft.
AMD muss ja keine vereinfachenden Marketingkampagnen a la Intel machen. AMD hat davon gelebt das die technisch Interessierten AMD gekauft haben und auch verbreitet haben.
Diese Leute wollen aber Futter haben über das dann zb hier debatiert werden kann.
Das wird aber seit geraumer Zeit kaum noch geliefert. Die Doku etc. ist auch nicht mehr so aussagekräftig.
Ich frage mich was da los ist?
Hat man Angst das Intel auf Grund ihrer Fähigkeiten veröffentlichte Ideen schneller umsetzen kann?
Oder hat man einfach nichts? Ich meine wenn sie nichts haben, dann muss ja etwas gehörig in die Binsen gegangen sein, da sie ja einige Zeit hatten etwas zu entwicklen.
Also einen hochgetakteten Nachfolger für den K8 der nach den Intelstopps und Marktveränderungen(Stromstaren, leise etc.) gecancelt wurde? Und jetzt keine Alternative?
Oder hat sich der K8 so gut entwicklet das man eine Genration die wenig Vorteil gebracht hätte überspringt?
Ich finde die verdreifachung der Entwickler und die Zukäufe deuten eher darauf hin das man zur Zeit nicht wirklich etwas hat, das fast fertig ist.
Also K8 durch viele Leute weiter ausquetchen und durch zukäufe optimieren/erweitern anstatt etwas wirklich neues?
Also ich finde wirklich das AMD weder einen kurzfristigen Ausblick bietet noch Visionen und Zukunftskonzepte zeigt.
das sehe ich aber ganz und gar anders:
1. die erhöhung der fpu leistung scheint ausgerichtet gegen das einzige feld, auf dem itanium bzw. power5 noch vorne liegen. in die gleiche richtung - numbercrunching für x86-64 - geht hyperlink3 und die möglichkeit spezieller cpus von drittanbietern, angebunden durch ht...
2. auch wenn noch nicht klar ist, was kommt, die signale, daß etwas kommen wird sind überdeutlich. kann man natürlich als marketinggeblubber sehen, aber solange intel auch nichts echtes an silizium in den regalen liegen hat: was soll's :) all dies zeigt aber, daß amd auf den neuen druck von intel reagiert - was wiederum zeigt: der druck ist da und wird ernst genommen!
3. es gibt doch deutliche zeichen dafür, daß sich bei amd (aufgrund des erfolges) auch vieles ändert: den deutlichen zuwachs an entwicklern hast du selbst genannt. aber es zeichnet sich doch auch ab, daß amd nun den gleichen weg geht wie intel ehedem, nämlich für die segmente mobile, desktop & server deutlich verschiedene cpus an zu bieten. man kann darüber streiten, ob dies ökonomisch wirklich sinnvoll ist, aber technisch ist es dies sicher. mit dem athlon64 hatten sie ja eigentlich nur eine cpu für alles. aus der not geboren, tatsächlich 2003 der letzte schuß vor dem untergang. nun scheint sich das angebot aber deutlich auf zu splitten...
4. ich denke nicht, daß die umsetzung von ddr2 in den imc der cpu so ein großer akt war. aber bei der ganzen virtualisierungs-geschichte bin ich mir nicht so sicher. *noahnung* was jetzt noch kommen könnte oder müßte, wurde ja bei anandtech gut beschrieben...
5. es wäre gut, wenn amd den am2 (mit den nur mäßigen leistungs-zuwächsen) zeitlich noch deutlich vor conroe positionieren könnte, um dann - zum ende des jahres - den eigentlichen konter zu bringen. mal schauen...
Dresdenboy
04.05.2006, 09:32
Für K8L wurde ja auch eher die 1,5-fache FP-Leistung gehandelt. Nicht umbedingt eine Verdoppelung der FP-Einheiten.
Daher würde ich eher darauf Tippen das durch bessere Cacheanbindung, veränderte Decoder, load/store -Optimierungen die 1,5 fache Leistung erreicht wird. Also bessere Auslastung als mehr Einheiten. Unklar ist ja auch noch was unter der eingefärbten Fläche sein wird.Dass eine Verdoppelung des max. theor. FPU-Durchsatzes nicht exakt die 2fache Leistung bringt, kann viele Gründe haben. Hauptsächlich wird das durch die restliche vorhandene Architektur bestimmt (Decoder/Issue-Durchsatz, Cache-/RAM-Bandbreiten) und vllt. geht man auch von immer noch viel skalarem Code aus, der sich eben nicht immer so schön per Compiler vektorisieren ließ.
Für Optimierungen wäre das jedenfalls ein eindeutig zu großer Leistungssprung, der ohne Änderungen an den Caches z.B. gar nicht machbar wäre. Die Optimierungen am K8-Kern (speziell im Bereich Decode/Issue, Reservation-Stations u. kleinere Änderungen) ggüber. K7 hätten ohne IMC vllt. so 5-10% gebracht. Dadurch wurden die Einheiten übrigens schon besser ausgelastet, weil z.B. bei vielen best. Anordnungen längerer x86-Befehlscodes nicht mehr so deutliche Decode-Leistungseinbrüche wie beim K7 auftreten.
Bezügl. Ausblick: Ich hoffe ja, dass sich AMD daran hält, uns im Juni etwas zu erzählen.
Kunibert_KA
04.05.2006, 11:52
das sehe ich aber ganz und gar anders:
1. die erhöhung der fpu leistung scheint ausgerichtet gegen das einzige feld, auf dem itanium bzw. power5 noch vorne liegen. in die gleiche richtung - numbercrunching für x86-64 - geht hyperlink3 und die möglichkeit spezieller cpus von drittanbietern, angebunden durch ht...
Ja, aber auch der Conroe und die Serverderivate haben eine höhere FP-Leistung. Für mich ist das eher ein Verteidigen gegen den Core als ein Angriff auf den power5.
2. auch wenn noch nicht klar ist, was kommt, die signale, daß etwas kommen wird sind überdeutlich. kann man natürlich als marketinggeblubber sehen, aber solange intel auch nichts echtes an silizium in den regalen liegen hat: was soll's :) all dies zeigt aber, daß amd auf den neuen druck von intel reagiert - was wiederum zeigt: der druck ist da und wird ernst genommen!
Ich sehe nicht das etwas kommen wird. Es muss etwas kommen, aber was ist eben nicht gesagt. Kann auch ein: Wir haben nichts sein.
3. es gibt doch deutliche zeichen dafür, daß sich bei amd (aufgrund des erfolges) auch vieles ändert: den deutlichen zuwachs an entwicklern hast du selbst genannt. aber es zeichnet sich doch auch ab, daß amd nun den gleichen weg geht wie intel ehedem, nämlich für die segmente mobile, desktop & server deutlich verschiedene cpus an zu bieten. man kann darüber streiten, ob dies ökonomisch wirklich sinnvoll ist, aber technisch ist es dies sicher. mit dem athlon64 hatten sie ja eigentlich nur eine cpu für alles. aus der not geboren, tatsächlich 2003 der letzte schuß vor dem untergang. nun scheint sich das angebot aber deutlich auf zu splitten...
Ich halte die Splittung für AMD für falsch. Die Kerne werden immer komplexer, so das AMD nicht die Ressourcen hat mehrere zu entwicklen und sich auch die Frage stellt ob die Entwicklungskosten in den einzelnen Segmenten dann auch wieder hereinkommen. Ich sehe da eine andere Entwicklung, dazu aber mehr in einem anderen Post.
4. ich denke nicht, daß die umsetzung von ddr2 in den imc der cpu so ein großer akt war. aber bei der ganzen virtualisierungs-geschichte bin ich mir nicht so sicher. *noahnung* was jetzt noch kommen könnte oder müßte, wurde ja bei anandtech gut beschrieben...
DDR2 ist wohl eine größere Schwierigkeit gewesen. Das kann man daran sehen das der Termin mehrfach nach hinten geschoben wurde und die ersten Samples katastrophale Ergebnisse gezeigt haben. Entgegen ersten Einschätzungen ist ja auch nur mit ach und krach ein kleines 0-+5% herausgekommen. 5% haben die anderen Steppings schon durch optimierungen gebracht.
5. es wäre gut, wenn amd den am2 (mit den nur mäßigen leistungs-zuwächsen) zeitlich noch deutlich vor conroe positionieren könnte, um dann - zum ende des jahres - den eigentlichen konter zu bringen. mal schauen...
Es würde auf jeden Fall gut sein den früh zu plazieren. Das Problem für AMD ist der neue Sockel. Wenn ich mir eh ein neues Board und RAM kaufen muss dann kann ich mir auch den Conroe ansehen. (Auch alles neu) Wenn man bisher schon ein S939 hatte, dann musste man ja nicht umbedingt ein neues Board und RAM kaufen. Da fiel ein Wechsel schon schwerer.
Ich denke AMD sollte daher für eine Möglichst schnelle Verbreitung des AM2 sorgen. (durch billige Dualcores?) Motto: Jetzt ein AM2-Board mit einem Prozessor der jetzt den Intels überlegen ist. In ein paar Monaten wird der Conroe überlegen sein, das aber auch nur so lange bis du auf unsere in das AM2-Board passende neue CPU in einem Jahr aufrüstest. Warum auf eine CPU warten(conroe) die nur für ein paar Quartale besser sein wird? Das setzt aber voraus das man jetzt den AM2 puscht und auch jetzt überzeugend darlegen kann das die Überlegenheit des Conroe nur von kurzer Dauer ist.
Hm mir is eben aufgafallen.... AMD braucht keine Marketing Abteilung.... alein dieser thread generiert aus nem Bild und ein par wagen Andeutungen soviele "informationen". 8)
Habt ihr euch schonmal gefragt, warum sich AMD GPU-spezialisten holt und keine CPU-spezialisten ??? is doch irgendwie komisch! will amd jetzt eine Grafiksparte aufmachen? Baut AMD doch an einem Super-Kern mit spezialisierten Recheneinheiten? Gibt es Bereiche in denen GPU's sehr schnell sind und von denen CPU's auch gut profitieren könnten? *noahnung*
P.s.: Hm.. man merkt bei mir irgendwie, dass ich doch ein AMD-Fan bin... aber keine Sorge ich hab Zuhause genauso viele AMD's wie Intels stehen ;) .
P.s.: Hm.. man merkt bei mir irgendwie, dass ich doch ein AMD-Fan bin... aber keine Sorge ich hab Zuhause genauso viele AMD's wie Intels stehen ;) .
Hab ich auch:
Intel: 386, 486, Pentium 1
AMD: K6-3, Athlon, Opteron
*lol* *lol* *lol*
ciao
Alex
Dresdenboy
04.05.2006, 23:34
Habt ihr euch schonmal gefragt, warum sich AMD GPU-spezialisten holt und keine CPU-spezialisten ??? is doch irgendwie komisch! will amd jetzt eine Grafiksparte aufmachen? Baut AMD doch an einem Super-Kern mit spezialisierten Recheneinheiten? Gibt es Bereiche in denen GPU's sehr schnell sind und von denen CPU's auch gut profitieren könnten? *noahnung* In letzter Zeit kam mir min. ein AMD-Patent unter die Augen, wo es speziell um Grafik-CPU-Anbindung geht, sowie auch Chips, wo sowohl CPU als auch GPU + Bussystem u. noch anderes ist, um aus mehreren solcher Bausteine Multi-PU/GPU-System zu bauen.
xxmartin
04.05.2006, 23:38
Habt ihr euch schonmal gefragt, warum sich AMD GPU-spezialisten holt und keine CPU-spezialisten ???
Mehr als naheliegend. Es gibt seit Ewigkeiten Gerüchte, wonach der PCI-Express Controller irgendwann direkt on-die in die CPU wandern soll. Und wer hat mehr Ahnung von on-die PCIe Controllern als Nvidia und ATI? CPU-Spezis wird's bei AMD mit Sicherheit mehr als genug geben. 8)
Damit würde der K8/K8L/K10 (oder was auch immer) in jedem Fall zum ultimativen I/O-Übermonster werden. Intel's FSB Architektur wirkt gegen on-die PCIe wie ein Trampelpfad im Regenwald verglichen mit einem 8-lane highway. :)
Dazu passend ist übrigens auch das RAMBUS Lizenzabkommen
http://techreport.com/ja.zz?comments=9220
PCIe Controller sind da neben DDR2 und DDR3 mit dabei gewesen. ;)
Patmaniac
04.05.2006, 23:44
Mehr als naheliegend. Es gibt seit Ewigkeiten Gerüchte, wonach der PCI-Express Controller irgendwann direkt on-die in die CPU wandern soll. Und wer hat mehr Ahnung von on-die PCIe Controllern als Nvidia und ATI? CPU-Spezis wird's bei AMD mit Sicherheit mehr als genug geben. 8)
Damit würde der K8/K8L/K10 (oder was auch immer) in jedem Fall zum ultimativen I/O-Übermonster werden. Intel's FSB Architektur wirkt gegen on-die PCIe wie ein Trampelpfad im Regenwald verglichen mit einem 8-lane highway. :) Also wenn DAS wirklich so rauskommt, wäre das schon echt krass. Ich kann es mir aber ehrlich gesagt nicht so recht vorstellen. Vor allem müssten für Quad-, Quadro- Multihastenichtgesehn-SLI ja ein Haufen PCIe-Lanes implementiert werden.
xxmartin
04.05.2006, 23:49
Also wenn DAS wirklich so rauskommt
DAS es mal irgendwann so kommt, ist meiner Meinung nach ziemlich sicher. Kein Wenn, mehr ein Wann. Der Opteron hat seit Anbeginn seiner Existenz durch schiere I/O-Bandwith jeden Xeon wie ein Spielzeug für Babys dastehen lassen. On-Die PCIe halte ich da nur für eine logische Konsequenz.
Patmaniac
04.05.2006, 23:53
Ich kann mir halt nur net so recht vorstellen, WIE das realisierbar sein soll? *kopfkratz Aber ok, vll denke ich auch einfach zu altmodisch mit der Aufteilung Northbridge-Southbridge usw. Aber wir werden ja sehn, was da so kommt.
Aber eines sollte man bedenken: Jetzt erst hat AMD die entsprechenden Entwickler an Bord geholt. Insofern klingt es für mich extrem unrealistisch, dass innerhalb nur eines Jahres so ein komplexes Thema implementiert wird. Wenn, dann wird das wohl erst was für 2008/2009 oder so. Und sollte es nicht dann schonwieder einen Nachfolger von PCIe geben?
xxmartin
04.05.2006, 23:58
Aber eines sollte man bedenken: Jetzt erst hat AMD die entsprechenden Entwickler an Bord geholt. Insofern klingt es für mich extrem unrealistisch, dass innerhalb nur eines Jahres so ein komplexes Thema implementiert
Ich würde eher denken, daß man da bestimmt schon 'ne ganze Weile rumtüftelt (die Gerüchte geistern ja schon seit gut 'nem Jahr - wenn nicht sogar noch länger - durch's Netz). Möglicherweise ist man nun schon so weit gekommen, wo es eben Spezialwissen "aus der Praxis" braucht für die kleinen Tricks und Kniffe. Wer weiß.
Und sollte es nicht dann schonwieder einen Nachfolger von PCIe geben?
Für alles wird es einen Nachfolger geben. Diejenigen, die irgendwann mal den DDR iMC entworfen haben, wußten sicherlich auch, daß es irgendwann DDR2 geben wird. Geschadet hat es offensichtlich nicht. ;)
Und wenn man 'nen kompletten Memory Controller ondie gebacken gekommt, sollte das mit PCIe (oder sonstigen Interconnects) grundsätzlich auch kein Problem sein. Ich meine, ist ja viel regelmäßiger. Wenn man weiß, wie man eine einzige PCIe Lane integriert, dann ist der Rest Copy&Paste. ^^
Kunibert_KA
05.05.2006, 00:29
Habt ihr euch schonmal gefragt, warum sich AMD GPU-spezialisten holt und keine CPU-spezialisten ??? is doch irgendwie komisch! will amd jetzt eine Grafiksparte aufmachen? Baut AMD doch an einem Super-Kern mit spezialisierten Recheneinheiten? Gibt es Bereiche in denen GPU's sehr schnell sind und von denen CPU's auch gut profitieren könnten? *noahnung*
Im Gegegensatz zu den andren sehe ich da auch andere Gründe:
16 PixelPipelines mit je einem Unified-Shader Quad für bis zu 128 Vertex- PixelShader Aktionen je Takt
512-Bit-"HyperScaled"-Speicherinterface für optimale Speicherauslastung
Ring-Bus
ATI und die Grafikkartenhersteller haben einen Vorsprung wenn es um massiv parallele Ausführungseinheiten geht.
Die Ring-Bus Architektur könnte interessant sein wenn es darum geht dem Memorycontroller, das HT-Interface, L3-Cache und 4,8,n Kerne miteinander zu verbinden. Herkömmliche Direktverbindungen würden wohl irgendwann zu kompliziert werden.
ATI hat auch Erfahrungen mit der sehr breiten und performanten Anbindung von RAM. Da Z-RAM eher dem DRAM als dem SRAM der bisherigen Caches ähnelt könnten diese Erfahrungen sehr wichtig sein.
Zur Zeit haben wir ja in den Dualcores die Kerne mit ihren Ausführungseinheiten getrennt.
Also wilde Spekulation:
Es wird keine Dual oder Quadcores im eigentlichen Sinn geben. Die getrennten Cores gibt es nicht mehr und die Ressourcen sind durch einen Ring-Bus miteinander verknüpft. So könnte ein Thread dann statt auf 3 oder 4 eben auf alle Ausführungseinheiten zurückgreifen. So werden insgesammt alle Einheiten besser ausgenutzt und bei Bedarf auch alles einem Thread zur Verfügung gestellt.
Gefüttert wird das Ganze dann durch einen breit (512 Bit) angebundenen Z-RAM. Dieser ist zwar langsammer als SRAM-Cache aber größer und breit angebunden.
Btw. 512 bit * 2,6 Ghz = 133 GB/s! Das wird man bei der Latenz des Z-Ram wohl nicht aus diesem herausholen können?
K8L erst im 3Q07 und mit nur 2 MiB L3 Cache *noahnung*
http://www.theinquirer.net/?article=31649
Naja aber das heist doch nichts. Wir wissen ja nicht wie gut der K8L wirklich wird und wie stark er mit mehr Cache skalieren würde. Da heisst es abwarten, Cachemonster vorschnell auf den Markt werfen bringt AMD ja auch nichts.
Crashman
12.05.2006, 00:07
Was 3Q07 angeht: Da steht, dass der Quadcore K8L zu diesem Zeitpunkt erscheinen soll!
Vorher wird es wohl noch einen Dualcore geben.
MfG
mocad_tom
12.05.2006, 15:31
Irgendwie scheinen sich "die Obrigen" mit den Corenamen noch nicht so einig zu sein, der eine schreibt Zamora, der andere wirft Cerberus und Wolfhound in den Ring.
Ich bin auch mal gespannt auf Anfang Juni. Der 90nm MCM-Quad-Core wird in meinen Augen immer wahrscheinlicher. Und wenn es "nur" ein 2xxer wird als Konterpart zum Kentsfield/Cloverton.
Denkbar wäre eine gleichzeitige Auslieferung mit den ersten Socket-F-Mainboards.
Das sie trotz Z-Ram so wenig L3-Cache integrieren verwundert - aber erstmal abwarten und Teetrinken - kann ja auch alles nur aus den Fingern gesogen sein.
Wenn sie mit Deerhound, Zerberus, Zamora oder wie auch immer die Kerne heissen den LowEnd-Power6 und LowEnd-Itanium-Markt ankratzen wollen muss für 4-16 Sockel im Glueless und 17-64 Sockel im Horus-Verbund genügend Cache vorhanden sein.
Grüße,
Tom
TheVenom
16.05.2006, 20:05
http://theinquirer.net/?article=31761
Mal wieder ein Inquirer Link, allerdings scheinen die Daten direkt von AMD / Chuck Moore zu kommen.
Wie mir scheint ein adäquater Conroe Konter, und im großen und ganzen auch das was hier im Forum schon mehrmals prognostiziert wurde.
mocad_tom
16.05.2006, 20:50
Wahnsinn :o
Die FP-Einheit ist tatsächlich fast verdoppelt(rot).
The last bit is much more aggressive prefetch to 'feed the beast'. It has gone from 16B to 32B, an obvious step with the added SSE number crunching power.
Branch prediction ist vom bisherigen Die-Plot übernommen worden.
Was auf zwei K8L-Versionen hindeutet, eine Laptop-Version und eine Server-Version.
Grüße,
Tom
Edit:
Der private L2 Cache scheint klein zu sein.
Der erste veröffentlichte Die-Plot(ab jetzt K8L-Mobile) hat 8 L2-Cache-Zeilen(redundante Zeilen-Brereiche)
Der K8L-Server hat aber nur 4 Zeilen L2-Cache.
K8L-Mobile: 1MB
K8L-Server: 512KB *noahnung*
mtb][sledgehammer
16.05.2006, 22:51
Nanu, ich dachte im Juni würde AMD herumposaunen, naja umso schöner.
Wie mir scheint hat der Server K8L die gleichen Micro Code Roms wie der vor einigen Wochen gezeigte K8L Mobile. Ergo würde ich doch sagen, dass beide 4 Decoder haben.
Die 2. FPU scheint ja ein wenig abgeschnitten zu wirken, für mich ein Hinweis darauf, dass diese nur 64 Bit genau arbeitet. Da im 64 Bit Betrieb die meisten OS sowiso nichtmehr x87 nutzen ist das kein Makel. Die leichte räumliche Trennung der beiden Einheiten ist für mich ein Indiz dafür, dass die beiden Units unabhängig arbeiten also 2* 64 Bit und nicht einmal 128 Bit (so wie du oder Dresdenboy das schon vermutet ha(s)t).
Ich muss sagen, bei dem Anblick muss einem Intel fast leid tun, da werden sie sich kurz die Spitze erkämpfen und dann scheint es dann auch schon vorbei zu sein.
xxmartin
16.05.2006, 22:56
Am besten gefällt mir das
For those who thought K8L was more or less a tweaked K8, you are wrong. It looks like no part of the core has been left unmolested by the elves working the CAD stations.
[sledgehammer;2730567']Ich muss sagen, bei dem Anblick muss einem Intel fast leid tun, da werden sie sich kurz die Spitze erkämpfen und dann scheint es dann auch schon vorbei zu sein.
;D
Der private L2 Cache scheint klein zu sein.
Sicher mit den 512k? Ich kann mir da schon 1 MB vorstellen durch 65nm und dichtere Cache-Struktur als bisher. Es gab doch letztens schon den einen Die-Shot, wo der ziemlich kleine L2 zu sehen war - bin mir sicher, daß auch das 1 MB waren. Dazu dann halt noch 4-8 MB L3.
Beziehungsweise was in Anbetracht des Die-Shots auch möglich ist: je zwei Cores haben einen shared L2-Cache von 1 MB oder 2 MB (je nachdem). Rein thermisch würde es sonst sicherlich mehr Sinn machen, die Caches jeweils nach außen zu platzieren bzw. weiter auseinander. Die enge räumliche Anordnung scheint mir auf shared-Cache hinzuweisen, was in den Road-Maps ja auch angekündigt war. Nur eben nicht für alle 4 Cores sondern 2x2.
mocad_tom
16.05.2006, 23:43
Sicher mit den 512k? Ich kann mir da schon 1 MB vorstellen durch 65nm und dichtere Cache-Struktur als bisher. Es gab doch letztens schon den einen Die-Shot, wo der ziemlich kleine L2 zu sehen war - bin mir sicher, daß auch das 1 MB waren.
Mit ziemlicher Sicherheit die hälfte des ersten Die-Plots.
Dort nochmal die mittigen Vierecke nachzählen - es sind 8 Zeilen untereinander.
Beim Deerhound sind es aber nur 4 Zeilen.
Es ist abhängig davon wieviel L2-Cache der erste gezeigte Core hat.
Hat der erste Core 1MB -> dann hat Deerhound 512kb pro Core
Bei 512kB -> Deerhound 256kB
Bei 2MB -> Deerhound 1MB
@mtb][sledgehammer
Wie mir scheint hat der Server K8L die gleichen Micro Code Roms wie der vor einigen Wochen gezeigte K8L Mobile. Ergo würde ich doch sagen, dass beide 4 Decoder haben.
Ich glaube nicht das die CPU 4-Issue-Wide ist.
In dem Bericht wurde etwas darüber gefachsimpled:
http://arstechnica.com/articles/paedia/cpu/core.ars/2
Der P-M-Core erscheint von aussen breiter als nur 3-Issue-Wide, weil Macro- & Micro-Ops-Fusion usw. geschickt implementiert sind. Dasselbe wird jetzt auch beim K8L gemacht, immer noch 3-Issue, aber aggressiver im Prefetching, grössere Completion-Unit & Ops-Fusion.
http://www.realworldtech.com/forums/index.cfm?action=detail&id=67239&threadid=67239&roomid=11
David Kanter fasst es relativ schmallippig so zusammen:
11. 32B instead of 16B ifetch
12. Indirect branch predictors
13. OOO load execution - similar to memory disambiguation
Aber alleine darin steckt einiges an Design-Arbeit und etwa 5-10% höhere IPC.
Habt Ihr euch den 4-Port-Crossbar schon etwas angeschaut? :D
Grüße,
Tom
xxmartin
17.05.2006, 00:19
http://www.realworldtech.com/forums/index.cfm?action=detail&id=67239&threadid=67239&roomid=11
Sehr aufschlußreich. Danke.
Damit sind es dann definitiv auch keine shared L2.
Und 5.2 GT/s Hypertransport? Das ist doch 32/32 Hypertransport 3.0 mit 2.6 GHz. Das wären satte 2*20.8 GB/s ... war das nicht erst für 2008 vorgesehen?
Dresdenboy
17.05.2006, 00:48
[sledgehammer;2730567']Nanu, ich dachte im Juni würde AMD herumposaunen, naja umso schöner.
Wie mir scheint hat der Server K8L die gleichen Micro Code Roms wie der vor einigen Wochen gezeigte K8L Mobile. Ergo würde ich doch sagen, dass beide 4 Decoder haben.
Die 2. FPU scheint ja ein wenig abgeschnitten zu wirken, für mich ein Hinweis darauf, dass diese nur 64 Bit genau arbeitet. Da im 64 Bit Betrieb die meisten OS sowiso nichtmehr x87 nutzen ist das kein Makel. Die leichte räumliche Trennung der beiden Einheiten ist für mich ein Indiz dafür, dass die beiden Units unabhängig arbeiten also 2* 64 Bit und nicht einmal 128 Bit (so wie du oder Dresdenboy das schon vermutet ha(s)t).
Ich muss sagen, bei dem Anblick muss einem Intel fast leid tun, da werden sie sich kurz die Spitze erkämpfen und dann scheint es dann auch schon vorbei zu sein.Das finde ich auch schön von AMD, jetzt schon Details zu bringen :)
Über die Decoder können wir noch diskutieren, da erstmal nur 4 µCode-ROMs sicher sind.
Aber das mit der FPU stimmt. Dass da eine davon max. nur 64 bit macht, stört nicht bezügl. x87 oder so, da es sehr wahrscheinlich nur die oberen Hälften der SSEn-Register sind.
http://www.chip-architect.com/news/Quad_vs_Dual_.jpg
Kommentar von Hans de Vries:
Small die size of the Quad Core K8L
I was quite surprised by the small die-size of the Quad Core K8L.
It seems to be only 36% larger on the same process compared to the
Rev.F Dual Core.
The latter has 220 mm2 @90nm which would give 300 mm2 @90nm for
the Quad Core @ 90nm or only 150 mm2 on the actual 65 nm process
presuming the usual factor 2 scaling.
150 mm2 is about the same size (+7%) as Core 2 Duo which has 140 mm2
http://www.siliconinvestor.com/readmsg.aspx?msgid=22457779
Jetzt muss AMD noch beweisen, dass sie es schaffen eine deutlich erhöhte Transistorzahl (ohne Cache!) zu bauen, ohne das der Stromverbrauch explodiert und die Taktrate kolabiert. :P
raven-666
17.05.2006, 13:08
denke doch, daß es erste sample auf silizium schon gibt, ein sogennanten "alpha-sample"
xxmartin
17.05.2006, 13:38
The latter has 220 mm2 @90nm which would give 300 mm2 @90nm for
the Quad Core @ 90nm or only 150 mm2 on the actual 65 nm process
presuming the usual factor 2 scaling.
Sehr beeindruckend. Der Cache je Core sollte angesichts von L3 auch völlig genügen. Kleine Die-Fläche = gute Preise. :)
Sehr beeindruckend. Der Cache je Core sollte angesichts von L3 auch völlig genügen. Kleine Die-Fläche = gute Preise. :) Ja, und v.a. muss man dabei auch den Hinweis von Hans de Vries beachten:
150 mm² Quadro Core(AMD) gegenüber 140 mm² Dual core(Intel).
Bei AMD gibts quasi +2 cores fast umsonst gegenüber Conroe. Dabei sind die Caches sogar gleich groß:
AMD: 4x512kB L2 + 2 MB L3 = 4 MB total
Intel: 4 MB unified L2
Da stellt sich die Frage, wo Intel die Fläche verbrät, oder ist die Cache Packungsdichte bei AMD mittlerweile besser ?
ciao
Alex
Captn-Future
17.05.2006, 14:40
Da stellt sich die Frage, wo Intel die Fläche verbrät, oder ist die Cache Packungsdichte bei AMD mittlerweile besser ? Das muß man sich wirklich fragen. Wobei ja noch dazu kommt, daß der Memory-Controller ja noch on Die ist. Also verbrät Intel ja noch mehr Platz.
Bestimmt kommt THG wieder mit dem Herdplattenvergleich an und spricht vom Heizkraftwerk wie damals beim shrink von 180 auf 130nm.
xxmartin
17.05.2006, 19:23
AMD: 4x512kB L2 + 2 MB L3 = 4 MB total
Intel: 4 MB unified L2
Je länger ich drüber nachdenke, umso besser gefällt mir die Lösung mit den 4x 512k L2 und 2M L3.
Im singlethread kann ein Core dann sozusagen mit 2.5 MB Cache rechnen (L3 Geschwindigkeit sehe ich durch on-die und Crossbar-Anbindung auf ähnlichem Niveau wie L2; zudem ja exklusiv) - für einen K8 ist das im Prinzip mehr als genug durch den flotten iMC.
Im multithread herrscht ja eine gewisse Ähnlichkeit der Daten der zu berechnenden Aufgabe, welche sich in den 2M L3 widerspiegelt. Und die lokalen Daten eines Threads, die unabhängig von den anderen Threads sind, passen auch hervorragend in die 512k und stören dabei die lokalen Cache-Zugriffe der anderen Threads nicht.
Bei 4 Cores und 4 MB shared L2 hätte man wesentlich mehr Konsistenzprobleme und die Zugriffe auf die extrem lokalen Daten würden auf einem gemeinsamen Cache erfolgen und somit dessen Latenz verschlechtern sowie Zugriffskonflikte ermöglichen.
The other whopper Chuck dropped was that DDR2 is coming and DDR3 is in the wings when the spec 'settles down'. Old news, FB-DIMMs are the future, right? AMD has said they are supporting them, but the big news is that they are not forcing support.
Ich hab da eine Frage.
Der Umstieg auf DDR2 und der höheren Speicherbandbreite bringt für AMD, so wie es jetzt ausieht, kaum bis keine Vorteile, da der K8 viel mehr auf Latenz reagiert als auf die Speicherbandbreite.
Also, würde ein weiterer Umstieg von DDR2 auf DDR3 noch viel weniger bringen.
Gibt es Anzeichen an den Änderungen, dass der zukünftige K8L in Zukunft eher auf die Speicherbandbreite positiv reagiert, als auf die Gesenkten Latenzen, die AFAIK in Zukunft kaum gesenkt werden, wenn überhaupt???
Oder wird der K8L in Zukunft weiterhin fast nur auf niedrige Latenzen postiv reagieren???
mocad_tom
17.05.2006, 21:00
K8L wird sicherlich gutmütiger auf Latenzen reagieren als K8.
K8 wurde für DDR1 entwickelt und hat demnach auch mit den niedrigen Latenzen geliebäugelt. Den Entwicklern hat man einen riesen gefallen getan da sie sich nicht auch noch um die Optimierung des Prefetchers etc. kümmern mussten.
Nun stand DDR2 an und man fühlte sich in der Pflicht hier auch etwas zu schrauben - klar, die Defizite sind für meinen Geschmack etwas zu offensichtlich. Der Bottleneck ist ganz klar hier zu suchen.
Man kann hier etwas die Techniken von Intel abkupfern, abwägen welcher Einsatz sich lohnt, wo der Einsatz im Vergleich zum Ertrag lohnend ist.
Out-Of-Order Loads wird hier sicherlich seinen Beitrag leisten.
Grüße,
Tom
Also, würde ein weiterer Umstieg von DDR2 auf DDR3 noch viel weniger bringen.Gibt es Anzeichen an den Änderungen, dass der zukünftige K8L in Zukunft eher auf die Speicherbandbreite positiv reagiert, als auf die Gesenkten Latenzen, die AFAIK in Zukunft kaum gesenkt werden, wenn überhaupt??
Niedrige Latenzen sind nie verkehrt, auch Intel Chips laufen schneller mit CL2 ;-)
Davor dass die Bandbreite ungenützt verpufft, musst Du Dir keine Sorgen machen.
1. Gehts hier um einen Quad-core .. logisch, dass der gerne etwas mehr Bandbreite hätte als ein Single core, oder ?
2. Wird ja auch die integer Leistung (leicht) und die FPU Leistung (stark) erhöht. Um da die Daten auch schnell abarbeiten zu können, müssen sie auch schnell angeliefert werden. In erster Linie kommts natürlich erst mal auf schnelle Caches an, aber DDR3 wird in der Hinsicht bestimmt auch positive Auswirkungen haben.
3. Kommts es auch auf die Software an. Der P4 ist v.a. bei Videoverarbeitung gut. Wieso ? Weil da schön gleichmäßig nacheinander die Daten in einem Strom abgearbeitet werden. Da macht sich eine hohe Bandbreite bemerkbar. Irgendwelche andre Software, die wild im RAM rumhüpft ist dagegen von der Latenz abhängig.
ciao
Alex
P.S: Wie kommt Hans eigentlich auf die 2 MB L3 ? Pi+ Daumen die Fläche mit dem L2 verglichen, oder ? Da fällt mir die ZRAM Geschichte wieder ein. In dem Fall wären es wohl "ein bisschen" mehr als 2 MB ;-)
Kunibert_KA
17.05.2006, 23:00
P.S: Wie kommt Hans eigentlich auf die 2 MB L3 ? Pi+ Daumen die Fläche mit dem L2 verglichen, oder ? Da fällt mir die ZRAM Geschichte wieder ein. In dem Fall wären es wohl "ein bisschen" mehr als 2 MB ;-)
Ich denke mal da sind zwei Sachen zu betrachten.
1. Ist es wohl kein ZRAM, sondern normaler Cache. Bei den Größenvergleichen wird mit normalem Cache verglichen. Es ist unklar wie weit AMD mit dem ZRAM ist. Wenn die Samples bald rausgehen sollen war das nicht viel Zeit. Aber in der Zukunft könnte ja der ZRAM als Ersatz kommen.
2. Von den 2MB L3 wird schon länger gesprochen. 2MB ist auf diversen 'Roadmaps' zu sehen. Kommt mir auch wenig vor. Ist aber wohl ein Kompromiss aus Yield, Fläche, Größe und Latenz.
mocad_tom
17.05.2006, 23:02
Ich möchte hier mal die Aussagen von Hans de Vries etwas einschränken.
Also habe ich mal den K8L mit dem K8 RevF in Korrelation gesetzt.
Ich habe darauf geachtet, das der K8-Kern in etwa genau so groß ist wie der K8L-Kern ohne zusätzlicher FPU.
Hier ergibt sich also folgende Abmessungen:
http://www.vr-zone.com/?i=3209
K8 Die Size: 220mm^2
Der Größenunterschied beläuft sich auf 1,666, damit ergibt sich:
K8L Die Size in 90nm: 366mm^2
Auch die Halbierung der Die-Size finde ich etwas arg optimistisch, also habe ich den Shrink von Clawhammer auf San Diego als Referenz verwendet:
http://www.hexus.net/content/item.php?item=1317&page=2
Es ergibt sich also ein "Shrinkfaktor" von 115 / 193 = 0,595.
366 * 0,595 = 218mm^2
Und dies liest sich schon wieder sehr viel eingängiger.
Grüße,
Tom
Kunibert_KA
17.05.2006, 23:09
Ich hab da eine Frage.
Der Umstieg auf DDR2 und der höheren Speicherbandbreite bringt für AMD, so wie es jetzt ausieht, kaum bis keine Vorteile, da der K8 viel mehr auf Latenz reagiert als auf die Speicherbandbreite.
Also, würde ein weiterer Umstieg von DDR2 auf DDR3 noch viel weniger bringen.
Gibt es Anzeichen an den Änderungen, dass der zukünftige K8L in Zukunft eher auf die Speicherbandbreite positiv reagiert, als auf die Gesenkten Latenzen, die AFAIK in Zukunft kaum gesenkt werden, wenn überhaupt???
Oder wird der K8L in Zukunft weiterhin fast nur auf niedrige Latenzen postiv reagieren???
Der Memcontroller mit DDR1 war ja für den Singlecore entwickelt worden. Der neue Controller ist zusammen mit DDR2 eher im Hinblick auf Dual/Quadcore optimiert.
Das heißt hier wurde vor allem der Speicherausbau und die verarbeitung von parallen Speicherzugriffen mehrere Cores optimiert. Da wird man sehen müssen wieviel das gebracht hat.
Generell ist zu sagen das die Latenz der Speicherbausteine seit langer Zeit konstant ist. Dort ist auch kaum etwas zu machen. Es dreht sich also eher um den Speicherausbau, die Bandbreite und die Parallelität wenn etwas getan wird.
Man muss das aber auch so sehen:
Wenn der Kern etwas aus dem RAM benötigt dann setzt sich die Zeit bis er es hat aus der Latenz bis die ersten Daten kommen und der Zeit die für die Übertragung der Daten benötigt wird zusammen.
Wenn nur wenig Daten benötigt werden überwiegt der Anteil der Latenz. Je mehr Daten ins Spiel kommen desto wichtiger wird die Übertragungsrate.
Ein weiterer Punkt ist eben das bei den normalen Latenzmessungen meist nur die min Latenz gemessen wird. Wenn jetzt mehrere Cores sich einen Controller teilen wird es wichtiger werden zu sehen was bei Konflikten passiert. Eben paralleler Zugriff.
Hiho,
laut dailytech (http://www.dailytech.com/article.aspx?newsid=2388) kommt der beschriebene QC K8L erst 2008. Davor soll es noch einen "normalen" K8 Quadcore geben.
Ob das Ganze stimmt, bzw. Sinn macht *noahnung*
ciao
Alex
mocad_tom
18.05.2006, 13:40
Ich habs auch gerade gelesen.
Schauen wir uns nochmal die Roadmap an:
http://pc.watch.impress.co.jp/docs/2006/0503/kaigai267_04l.gif
Gegen diese Story spricht dies:
http://www.dailytech.com/article.aspx?newsid=1702
So far, there is no mention of AMD's upcoming quad-core processors. Windsor, Orleans and Manila will be AMD's first AM2 processors, phasing out the older socket 754 and 939 variants. Coming into 2007, Brisbane will introduce 65nm fabrication for AMD and will remain on the AM2 interface. In the second half of 2007, entry level processors will also be manufactured on 65nm. These 65nm processors are supposedly the K8L architecture mentioned by Henri Richard several weeks ago.
http://www.digitimes.com/bits_chips/a20060314PR200.html?www.dailytech.com
A: Well, if we’re going to be more open about 2007 plans, I think Computex would be a good time to start saying a little more about it since that’s where we are introducing our AM2 new infrastructure. That's not to say we're going to present K8L at Computex – don't get me wrong – but I think that that would be a good time to start to disclose more about the future because one of the strong attributes of our roadmap, both in 2006 and 2007, is socket compatibility. The nice thing we're going to do is to deliver to customers. Whatever improvements K8L will provide, they will be applicable to some of the sockets we will be introducing. Therefore, there's a certain logic, to my mind, in disclosing more at that time.
Es wurde nirgends dazugesagt, welchen Projektnamen der QC-Die vom Dienstag hat, ich bin mir aber ziemlich sicher, das er Deerhound heißen wird. Ich vertrete immer noch den Standpunkt, das Brisbane ein K8L-Derivat ist.
Welches Marketing-Genie wäre so schlau und würde heute einen Prozessor vorstellen, der erst in 2 Jahren auf den Markt kommt und in der Sockel-Generation, die im Juli vorgestellt wird nichtmal lauffähig ist.
Grüße,
Tom
mtb][sledgehammer
18.05.2006, 14:18
...
Welches Marketing-Genie wäre so schlau und würde heute einen Prozessor vorstellen, der erst in 2 Jahren auf den Markt kommt und in der Sockel-Generation, die im Juli vorgestellt wird nichtmal lauffähig ist. Was zudem noch untermauern würde, dass AMD erst in 2 Jahren wirklich was neues bringt. oder um es negativ auszudrücken: Was wäre es für ein Marketing, zu sagen, dass man 2 Jahre lang nichts neues macht??
[....]
Es wurde nirgends dazugesagt, welchen Projektnamen der QC-Die vom Dienstag hat, ich bin mir aber ziemlich sicher, das er Deerhound heißen wird. Ich vertrete immer noch den Standpunkt, das Brisbane ein K8L-Derivat ist.
Welches Marketing-Genie wäre so schlau und würde heute einen Prozessor vorstellen, der erst in 2 Jahren auf den Markt kommt und in der Sockel-Generation, die im Juli vorgestellt wird nichtmal lauffähig ist.
Grüße,
Tom
http://www.amd.com/de-de/Corporate/VirtualPressRoom/0,,51_104_543_8001~15152,00.html
San Francisco, CA -- 26. Februar 2002 -- AMD (NYSE: AMD) präsentierte heute unter dem Codenamen “Hammer” den ersten Prozessor der nächsten Generation und demonstrierte damit eindrucksvoll seine Vision zukünftiger Computertechnologie.
http://www.amd.com/de-de/Corporate/VirtualPressRoom/0,,51_104_543_10218~66305,00.html
Sunnyvale, CA -- 31. Januar 2003 --AMD (NYSE: AMD) kündigte heute die weltweite Einführung der ersten Prozessoren der nächsten Generation, der 64-bit-fähigen AMD Opteron™ Prozessoren für Server und Workstations an. Sie wird am 22. April 2003 in New York stattfinden. AMD plant des weiteren, den AMD Athlon 64 Prozessor für Desktop PCs und Notebooks im September 2003 auf den Markt zu bringen.
http://www.amd.com/de-de/Corporate/VirtualPressRoom/0,,51_104_543_10218~72768,00.html
- 18. Juli 2003 -- AMD (NYSE: AMD) hat heute den 23. September als Termin für die Vorstellung des AMD Athlon™ 64 Prozessors für Desktop PCs und Notebooks bekannt gegeben.
Also beim Hammer waren es von der ersten Vorstellung, bis zur Auslieferung der Desktop Version 18 Monate, bis zur Auslieferung der Server Version 14 Monate!!!
Soviel zu den Tatsachen.
Crashman
18.05.2006, 14:46
Ich denke aber, dass die Änderungen am Core für eine Auslieferung in 18 Monaten definitiv zu gering sind. Zu dem Zeitpunkt steht doch fast der Core 3 (Nehalem) vor der Tür.
MfG
mtb][sledgehammer
18.05.2006, 15:28
Das kommt irgendwie auch voll darauf an, was man als Ankündigungsdatum bezeichnet und was nicht. Eigentlich gabs schon auf dem MPF 2000 die ersten Details zu AMDs Hammer CPUs.
Die ersten Hinweise über K8L stecken schon im ersten Software Optimization Guide zum K8, in dem schon die 128 Bit FPU angekündigt wird, war ca 2003.
Ein Hauptindiz für mich das K8L (zumindest als Dual-Core) eher näher ist als 2008, d das neue verschwommene Bild (Cache und Speicherstrukturen, 4 µCode ROMs) sehr viel mehr wie der kürzlich gezeigte 65 nm DIE (Single Core, Revision G) aussieht als die Revision F. Klar ist im Quad-Core noch so einiges drin, was der Single Core nicht hat (ja ich habe zum Beispiel die enorm große Northbridge gesehen), aber der eigentliche Kern sollte fertig sein. Ich denke zumindest nicht, dass der Single Core eine Photoshop Kreation ist. Für den Dual-Core sind IMO jedoch auch die neue Northbrige sowie der L3 Cache nicht notwendig, dort tun es auch die alte Bestandteile mit großzügigen 2*1MB L2 Cache.
Die dickere FPU halte ich nicht wirklich für ein Hexenwerk gegenüber dem Single Core Revision G.
Treverer
18.05.2006, 15:57
Also beim Hammer waren es von der ersten Vorstellung, bis zur Auslieferung der Desktop Version 18 Monate, bis zur Auslieferung der Server Version 14 Monate!!!
Soviel zu den Tatsachen.
ja, das stimmt schon historisch. aber jeder weiß doch auch, daß es damals (mindestens) probleme mit soi gab (danke IBM, für die hilfe), welche für die damaligen zeitlichen verzögerunegn sorgten. jeder sah doch, daß amd verspätung hatte und diese war so gewaltig, daß es amd fast gekillt hätte, da intel zu der zeit mit ihren p4 vorne lag... es (athlon64) war ja, wie jemand von amd sagte, der letzte schuß, den sie hatten. also, hoffe ich mal, daß es diesesmal nicht wieder ebenso abgeht, auch wenn die anstehenden, angekündigten änderungen gewaltig sind. so richtig den überblick habe ich ja nicht mehr bei all den ankündigen von amd und intel, aber ich versuche doch mal paar sachen festzuhalten:
- in den nächsten wochen kommt sockel am2 UND noch cpus mit besserem ipc/watt in 90nm (wann kommt sockel f für server?)
- intel kommt in frühestens drei monaten mit conroe, nach eigener einschätzung maximal 20% des marktes ende 06 (das bedeutet: sie produzieren dann immer noch viermal mehr p4!)
- ende 06 kommen die ersten 65nm cpus von amd (höherer takt, noch besserer ipc/watt)
- mitte 2007, also in 12 monaten, dann der K8L als dual-core zu kaufen, vorgestellt vielleicht auch schon quad-core, den es aber wohl erst ende ´07 anfang ´08 geben wird. das schöne daran: alles für demnächst erhältliche sockel-plattformen!
desweiteren, mir immer wieder wichtig:
solange die preise von amd nicht gesenkt werden, verkaufen sie anscheinend was sie haben. egal, ob intel nun die ach so tollen conroes ankündigt oder eben nicht. und wenn diese tatsächlich soviel besser sind, dann gehen eben, entsprechend der mangelnden nachfrage, auch endlich bei amd mal wieder die preise runter. aber dies wird wohl frühestens im q3/06 der fall sein.
außerdem, ich sehe ich dies ja auch immer politisch:
intel kündigte monate vor dem erscheinen ihren conroe an, zu einem zeitpunkt, als sie wirklich nichts mehr im köcher hatten, um zu kämpfen. diese situation dauert auch noch an, sorgt aber natürlich nicht dafür, daß kunden, die jetzt neue systeme brauchen, unbedingt jetzt noch auf alte, schlechte p4 und (vor allem!) xeon züge aufspringen. das ergebnis ist, daß intel schlecht verkauft (niedrige preise, schlechte quartalsergebnisse), während amd hochpreisig wie nie anscheinend alles los wird.
immerhin erreichte intel, daß amd reagieren mußte und das haben sie ja nun auch getan (so daß die großen einkäufer wissen, ob sie weiter auf amd systeme setzen können), und zwar mit einem ganzen bündel von meldungen innerhalb der letzten 10tage. natürlich ebenso mit ankündigungen. ABER mit dem riesigen vorteil, daß die systeme, auf denen ihre angekündigen cpus laufen sollen, die gleichen sind, die es in ein paar wochen zu kaufen gibt (zumindest bei sockel am2 - sockel f ??). da wiederholt sich doch die erfolgsgeschichte ihrer dual-cores, die ja auch auf den bereits vorhandenen systemen einsetzbar waren (abhängig, wie immer, durch die mehr oder weniger gute arbeit der mainboard-hersteller) und bei quad-core wird es ebenso laufen. und das schöne: die jetzt kommenden am2 systeme werden doch bis zum ende dieses jahres preis/leistungsmäßig konkurrenzfähig zu den intel-systemen sein, d.h. man muß sie nicht einmal kaufen auf das versprechen hin, erst später konkurrenzfähig zu sein.
fazit:
wenn intel glück hat, dann werden sie auf dem desktop-markt (vielleicht auch mobil, aber sicher nicht x86-64 server) vielleicht sechs monate lange in ´07 ein besseres produkt anbieten können. das wars dann aber auch schon wieder...dies begründet im übrigen auch die "euphorie" der amd fanboys ;) und das große medienecho auf amds ankündigungen.
p.s.:
niedlich: http://www.theinquirer.net/?article=31808
da kennen schon einige das nächste quartalsergebnis *lol*
edit:
hah, sockel f auch bereits im july: http://theinquirer.net/?article=31787
ist doch ein superplan: jetzt die plattform verbreiten für die cpus im nächsten jahr...
[sledgehammer;2732846']Das kommt irgendwie auch voll darauf an, was man als Ankündigungsdatum bezeichnet und was nicht. Eigentlich gabs schon auf dem MPF 2000 die ersten Details zu AMDs Hammer CPUs.
Die ersten Hinweise über K8L stecken schon im ersten Software Optimization Guide zum K8, in dem schon die 128 Bit FPU angekündigt wird, war ca 2003.
Ein Hauptindiz für mich das K8L (zumindest als Dual-Core) eher näher ist als 2008, d das neue verschwommene Bild (Cache und Speicherstrukturen, 4 µCode ROMs) sehr viel mehr wie der kürzlich gezeigte 65 nm DIE (Single Core, Revision G) aussieht als die Revision F. Klar ist im Quad-Core noch so einiges drin, was der Single Core nicht hat (ja ich habe zum Beispiel die enorm große Northbridge gesehen), aber der eigentliche Kern sollte fertig sein. Ich denke zumindest nicht, dass der Single Core eine Photoshop Kreation ist. Für den Dual-Core sind IMO jedoch auch die neue Northbrige sowie der L3 Cache nicht notwendig, dort tun es auch die alte Bestandteile mit großzügigen 2*1MB L2 Cache.
Die dickere FPU halte ich nicht wirklich für ein Hexenwerk gegenüber dem Single Core Revision G.
Ich glaube schon, dass AMD den K8L wahrscheinlich bereits im Januar 07 mit finalen Taktraten produzieren kann. Nur die neuen Einheiten müssen dann erstmal am lebenden Exemplar validiert werden und das kostet Zeit.
Kunibert_KA
18.05.2006, 17:23
- intel kommt in frühestens drei monaten mit conroe, nach eigener einschätzung maximal 20% des marktes ende 06 (das bedeutet: sie produzieren dann immer noch viermal mehr p4!)
Core-CPUs sind für july angekündigt. Das sind keine 3 Monate mehr. Wieviele ab wann dann verfügbar sind ist etwas anderes.
Ich denke das ist nicht zu Ende gedacht.
Wir haben bei den CPUs ja so ca. 50% NB, 40% Desktop und 10% Server (alles nur geschätzt).
Auf dem NB-Markt steht Intel gut da. Dort müssten sie kaum Cores einbringen. Im Desktopmarkt sollte man auch die Low End Celerons nicht vergessen. Wenn man also von den 20% produzierten Core-CPUs ausgeht, dann werden davon nur wenige in den Server und NB Markt gehen. Wenn man davon ausgeht das die Hälfte der Desktop CPUs Celerons sind, dann könnten fast alle P4s ersetzt werden.
- ende 06 kommen die ersten 65nm cpus von amd (höherer takt, noch besserer ipc/watt)
Die 65nm CPUs sind aber nicht für das Highend angekündigt. Dort bleiben die 90nm. Durch 65nm wird man also kaum mehr Takt sehen in 06.
- mitte 2007, also in 12 monaten, dann der K8L als dual-core zu kaufen, vorgestellt vielleicht auch schon quad-core, den es aber wohl erst ende ´07 anfang ´08 geben wird. das schöne daran: alles für demnächst erhältliche sockel-plattformen!
Das sind aber auch Spekulationen. Zu den Terminen wurde noch nichts genaues gesagt. Einen Dual K8L wurde auch noch nicht offiziell genannt.
....Wenn man also von den 20% produzierten Core-CPUs ausgeht, dann werden davon nur wenige in den Server und NB Markt gehen. Wenn man davon ausgeht das die Hälfte der Desktop CPUs Celerons sind, dann könnten fast alle P4s ersetzt werden. Öh mal ne dumme Frage:Wenn Core 2 nicht in den NB Markt geht .. was verbaut Intel denn statt dessen ? P4 *lol* ?
ciao
Alex
P.S: Tipp: Mal nach Merom googeln ;-)
Kunibert_KA
18.05.2006, 18:06
Öh mal ne dumme Frage:Wenn Core 2 nicht in den NB Markt geht .. was verbaut Intel denn statt dessen ? P4 *lol* ?
ciao
Alex
P.S: Tipp: Mal nach Merom googeln ;-)
Mir ist klar das es den Meron gibt. Intel hat jedoch nicht gesagt wie sich diese 20% NGMA-CPUs auf die Bereiche Mobil, Desktop und Server verteilen.
Da Intel im Mobilsektor mit dem Core Duo gut gegen den Turion X2 dasteht, ist der Bedarf an NGMA-CPUs dort nicht so hoch.
Im Server und Desktop Markt steht Intel hingegen nicht gut da. Aus diesem Grund gehe ich davon aus das dort die meisten NGMA hingehen werden.
In meinen Augen wird es also einige Meron für das Highend+Gamer geben. Die Masse wird aber Core Duo bleiben, da diese ausreichend sind.
Im Server/Desktopmarkt werden die NGMA-Kerne den P4 ersetzen. Für die billigen Systeme wird es weiter die Celerons geben.
Also wenn die Hälfte der CPUs mobile sind und dort kaum NGMA hingehen und im Desktopbereich 50% Celeron sind, dann bedeuten 20% der CPU-Produktion eben das der Großteil der CPUs im Server und gehobenen Desktopbereich ersetzt werden können.
Mir ist klar das es den Meron gibt. Intel hat jedoch nicht gesagt wie sich diese 20% NGMA-CPUs auf die Bereiche Mobil, Desktop und Server verteilen.
Intel hat ja Angekündigt, dass Ende des Jahres 70% der Server-CPUs schon auf den NGMA-CPU passieren.
Abgesehen davon, sollen es Ende des Jahres nicht 20 sonder 15% sein.
Oder sind da nur die Conroe-CPUs gemeint???
Da Intel im Mobilsektor mit dem Core Duo gut gegen den Turion X2 dasteht, ist der Bedarf an NGMA-CPUs dort nicht so hoch.
Also, desto näher der Vista-Start rückt, desto altmodischer wirkt dieser 32Bit Processor für mich.
Denn gerade Notebooks benutzt man eine längere Zeit a la 2 Jahre, wenn nicht länger.
mocad_tom
18.05.2006, 19:44
Seit November 05 müsste einiges schief gelaufen sein wenn tatsächlich die Vorhersagen von Dailytech stimmen:
Gefunden hier:
http://www.epscontest.com/presentations/05q4_analyst-day.htm?slide=84&a
http://epscontest2.home.comcast.net/presentations/05q4_amd_ad/Slide84.JPG
Grüße,
Tom
xxmartin
18.05.2006, 22:51
niedlich: http://www.theinquirer.net/?article=31808
da kennen schon einige das nächste quartalsergebnis *lol*
;D ... als ich bei der Hälfte Deines Postings war, wollte ich genau den Link als Antwort bringen. :]
Der Rest entspricht genau meiner Meinung. Da muß nichts weiter kommentiert werden.
Seit November 05 müsste einiges schief gelaufen sein wenn tatsächlich die Vorhersagen von Dailytech stimmen:
Gefunden hier:
http://www.epscontest.com/presentations/05q4_analyst-day.htm?slide=84&a
http://epscontest2.home.comcast.net/presentations/05q4_amd_ad/Slide84.JPG
AMD hat den 3 Jahres Tech-Ausblick (http://www.amdcompare.com/techoutlook/) scheinbar mittlerweile auch geändert. Da stehen Shared L3 Cache, More than two Cores (im Fall vom K8L also Quad-Core), AMD64 Instruction Extensions (deckt sich mit Punkt 16 vom K8L : "Several new instructions") und Hypertransport 3.0 mittlerweile alle auf 2007. Insbesondere letzteres war vor 'ner Weile noch auf 2008. Ich bin mir recht sicher, daß wir den K8L eher früher als später sehen. Nur wird AMD ganz im Gegensatz zu Intel versuchen, die aktuellen Produkte solange wie möglich zu einem ordentlichen Preis zu verkaufen ohne Untergangsmeldungen darüber, daß alle aktuellen Produkte faktisch crap sind (was im Fall von K8 vs. K8L auch zum Glück nicht stimmt verglichen mit Netburst vs. Core).
mtb][sledgehammer
19.05.2006, 00:26
AMD Power Now! Enhancements stehen dort auch für 2007.
xxmartin
19.05.2006, 00:36
[sledgehammer;2733687']AMD Power Now! Enhancements stehen dort auch für 2007.
Stimmt, gar nicht gesehen. Das wäre dann sicherlich die angekündigte unterschiedliche Spannungsversorgung von Northbridge und den Cores.
Treverer
19.05.2006, 03:22
alle machen sich hier (große) sorgen um amd - nur dell nicht *lol* *lol* *lol* *lol*
p.s.: das mußte jetzt sein! ;)
alle machen sich hier (große) sorgen um amd - nur dell nicht *lol* *lol* *lol* *lol*
p.s.: das mußte jetzt sein! ;)
http://www.heise.de/newsticker/meldung/73305
Nein, Dell will eben gemeinsam mit AMD untergehen :D
Ok, gegen die kommenden 'Wunder Dual-Core CPUs von Intel' (Woodcrest & Co.) kann AMD nur stromsparende Server-CPUs und IPC-optimierte Quad-Core anbieten (http://www.heise.de/newsticker/meldung/73197), aber anscheinend will dies die Server-Welt haben.
Vielleicht auch nur mehrjährig stabile Sockets oder eben frühzeitig Samples (die DDR-2 Opterone sind wohl schon seit Ende 2005 bei den OEMs).
Nochmals zurück zum K8L:
In 65nm, jetzt recht kompakte und wohl auch kleinere L2, dafür diese wohl schnell und alles ergänzt um shared L3 (ZRAM), das gibt dann vielleicht nicht die GHz Krone (die hat dann der Woodcrest), aber wohl solide Arbeitspferde für HighEnd Server.
Das Foto von heise.de läßt wieder die Frage aufkommen, ob AMD auch beim L2 shared je 2 Cores arbeitet. Zumindest sind die jetzt auffällig klein, wobei aber auch der Turion X2 mit kleinen Caches erschienen ist (dafür mit viel Memorybandbreite).
Riecht alles nach einer Zukunft bei AMD in Richtung L3.
Zumindest fällt mit der Entscheidung von Dell wieder ein Sargnagel weniger für AMD an und die angekündigte Wunderwelt von Intel hat einen häßlichen Fleck bekommen.
raven-666
19.05.2006, 12:02
Zumindest fällt mit der Entscheidung von Dell wieder ein Sargnagel weniger für AMD an und die angekündigte Wunderwelt von Intel hat einen häßlichen Fleck bekommen.
das ist schön gesagt. ich glaub auch nicht, daß sich ein neuer core innerhalb von nur wenigen "wochen" am markt durchsetzt, das wird eher monate und jahre dauern....
xxmartin
19.05.2006, 12:42
In 65nm, jetzt recht kompakte und wohl auch kleinere L2, dafür diese wohl schnell
Schnell müssen die L2 definitiv endlich werden. Denn wenn ich DDR-400 bei 5.5-6.0 GB/s von theoretischen 6.4 GB/s sehe und dann DDR2-800 bei 7-8 GB/s weit abgeschlagen von den theoretischen 12.8 GB/s, würde mir als Außenstehender nicht so ganz klar sein, ob AMD wirklich den besseren Unterbau hat.
das gibt dann vielleicht nicht die GHz Krone
Ich schätze schon, daß AMD ab 65nm mindestens bis zum Erscheinen des K8L definitiv die "Clock-Leadership" gegenüber dem Conroe haben wird. Beim Conroe XE gilt es ja "nur" die 3.33 GHz zu schlagen, die man selbst mit heutigen 90nm Cores (also weder 65nm noch eSiGe) schon erreichen kann.
Das Foto von heise.de läßt wieder die Frage aufkommen, ob AMD auch beim L2 shared je 2 Cores arbeitet
Nein. Hatte ich bereits weiter oben auch vermutet. Ist aber mit ziemlicher Sicherheit nicht so. Jeder Core hat einen völlig isolierten L2 Cache, nur der L3 ist shared.
und die angekündigte Wunderwelt von Intel hat einen häßlichen Fleck bekommen.
;D
Patmaniac
19.05.2006, 12:48
Ich schätze schon, daß AMD ab 65nm mindestens bis zum Erscheinen des K8L definitiv die "Clock-Leadership" gegenüber dem Conroe haben wird. Beim Conroe XE gilt es ja "nur" die 3.33 GHz zu schlagen, die man selbst mit heutigen 90nm Cores (also weder 65nm noch eSiGe) schon erreichen kann. *hust* Der höchst-getaktete AMD64 hat nur 2,8 GHz. Oder meinst du nicht, dass man auch den Conroe XE übertakten kann?! ;)
p.s.:
niedlich: http://www.theinquirer.net/?article=31808
da kennen schon einige das nächste quartalsergebnis *lol*
Tja, da haben wohl jetzt noch schnell ein paar Investmentbanker ihr Portfolio bereinigt:
http://isht.comdirect.de/html/detail/main.html?hist=5d&sSym=AMD.FSE&DEBUG=0&bench1=INL.FSE&cmpId=17000460,1&dsc=rel&iJcfcode=2084&ind0=VOLUME&sCat=STK&sIsin=US0079031078&sPageType=standard&sTab=chart&sWkn=863186&shadowbench1=INL.FSE%253b0x3366CC%253b&type=CONNECTLINE
;D
Dresdenboy
19.05.2006, 13:03
*hust* Der höchst-getaktete AMD64 hat nur 2,8 GHz. Oder meinst du nicht, dass man auch den Conroe XE übertakten kann?! ;)Ich habe extra nochmal geschaut, ob du das wirklich heute geschrieben hast ;)
Also die Opteron-Modelle 256 u. 856 wurden schon im April gemeldet.
Patmaniac
19.05.2006, 13:14
Ich habe extra nochmal geschaut, ob du das wirklich heute geschrieben hast ;)
Also die Opteron-Modelle 256 u. 856 wurden schon im April gemeldet. Stimmt, die haben 3 GHz. Zu kaufen gibt's bis jetzt aber nur solche mit 2,8 GHz. Aber wie dem auch sei, der Conroe XE hat trotzdem 300 Mhz mehr von Beginn an. Also ich halte es schon für ziemlich wage, zu sagen, dass der K8/K8L höher zu takten sei, als der Conroe. Das kann zurzeit niemand genau sagen.
xxmartin
19.05.2006, 13:25
*hust* Der höchst-getaktete AMD64 hat nur 2,8 GHz. Oder meinst du nicht, dass man auch den Conroe XE übertakten kann?! ;)
Ich meine stock clock, kein OC. Ein FX-68 mit 3.4 GHz ist in 65nm und eSiGe mehr als realistisch. Daß ab dem vorgezogenen FX-64 (3.0 GHz) in 400 MHz beim FX gesprungen wird, ist auch wahrscheinlich, da ab einer gewissen Taktrate 200 MHz Sprünge nicht mehr wirklich verkaufbar sind.
Ich schätze schon, daß AMD ab 65nm mindestens bis zum Erscheinen des K8L definitiv die "Clock-Leadership" gegenüber dem Conroe haben wird. Beim Conroe XE gilt es ja "nur" die 3.33 GHz zu schlagen, die man selbst mit heutigen 90nm Cores (also weder 65nm noch eSiGe) schon erreichen kann.
;D
Das halte ich ja für ein Gerücht.
Die 3GHz SingleCore Opterons will ich mal nicht mit den DualCores vergleichen. Aber selbst bei den Übertaktern sind DC 3GHz@Lukü sehr selten.
Ob sich das schlagartig mit den 65nm ändern wird, wage ich zu bezweifeln. Zumal Intel mit seinen vielen Fabs in Sachen Fertigungstechnik einiges drauf hat.
Treverer
19.05.2006, 13:43
Stimmt, die haben 3 GHz. Zu kaufen gibt's bis jetzt aber nur solche mit 2,8 GHz. Aber wie dem auch sei, der Conroe XE hat trotzdem 300 Mhz mehr von Beginn an. Also ich halte es schon für ziemlich wage, zu sagen, dass der K8/K8L höher zu takten sei, als der Conroe. Das kann zurzeit niemand genau sagen.
einen takt von 3,3ghz für die conroes halte ich dagegen für das größte gerücht. glaube ich einfach nicht dran, weil intel eben kein soi verwendet...
mtb][sledgehammer
19.05.2006, 14:48
einen takt von 3,3ghz für die conroes halte ich dagegen für das größte gerücht. glaube ich einfach nicht dran, weil intel eben kein soi verwendet... Das lustige daran wäre nur, dass dann die uralte P6 Architektur (vom Prinzip/Pipelinelänge her ist es das ja noch in großen Teilen) schon fast an Intels taktoptimierte Netburst Architektur rankommt.:] (bzw. dann vielleicht in absehbarer Zeit auch überholt)
[sledgehammer;2734344']Das lustige daran wäre nur, dass dann die uralte P6 Architektur (vom Prinzip/Pipelinelänge her ist es das ja noch in großen Teilen) schon fast an Intels taktoptimierte Netburst Architektur rankommt.:] (bzw. dann vielleicht in absehbarer Zeit auch überholt)
http://www.xtremesystems.org/forums/showpost.php?p=1458292&postcount=60 *oink*
vBulletin® v3.8.7, Copyright ©2000-2012, vBulletin Solutions, Inc.