Archiv verlassen und diese Seite im Standarddesign anzeigen : Stepping F - Zweiter Core bei Bedarf abschaltbar
http://www.xbitlabs.com/news/cpu/display/20060215195420.html
AMD könnte so aber auch einen FX-62 mit 2* 2,8 GHz starten, der bei ungenutztem zweiten Core den anderen aber noch höher takten könnte (so auch bei Intel im Gespräch).
Mit der aktuellen Prozesstechnik (s. angekündigten Opteron 256 = 1* 3,0 GHz) wäre also auch 1* 3,0 o. 1* 3,2 GHz zzgl. zweitem Core IDLE (=HALT bei voller Vcc) möglich.
Dies würde wahrscheinlich trotzdem etwas mehr Strom als bei einem reinen Single-Core (wie Orleans) bedeuten, was dann die 'hohen' 125 Watt TDP erklärbar machen würde.
Der kaum langsamere X2 5200+ (2* 2,6 GHz / 2* 1M-L2) kommt ja mit 89 Watt aus.
Wäre natürlich für Gamer ein 'Killer-Feature', wo der Conroe kräftig unter Druck käme. Außer der ominöse Conroe XE 3,33 (95 Watt statt 65 Watt) wäre ebenso für 3,33 GHz bei nur einem Core ausgelegt.
Zumindest doch ne hübsche Spekulation, die unsere Gamer hoch erfreuen müßte, wenn es so auf den Markt käme.
Treverer
16.02.2006, 17:40
wieso erhöht sich denn bei nicht einmal 5% mehr tranistoren die die-fläche um über 10%? und dies, obwohl sich die fläche für cache auch noch verringert? und wie lassen sich die geringeren astromaufnahmen erklären, obwohl es doch bei 90nm bleibt? da müssen die ingenieure ja echt zum tuning an jeder leiterbahn geschraubt haben...
Kunibert_KA
16.02.2006, 21:19
Ich finde die Zahlen ganz interessant.
Beim Dual ist das die von 194mm² auf 220 mm² gewachsen
Die Transitoren von 233 mil auf 243 mil
Beim Single ist das die von 106 mm² auf 126 mm² gewachsen und
die Transistoren von 120 mil auf 129 mil.
Der L2 ist von 82,8mm² auf 77,4mm² geschrunpft, der Memcontroller ist um 8% gewachsen.
Wenn man sich diese Zahlen ansieht, dann kann man da einiges sehen.
1. Der Singlecore ist um 20mm² und 9 Mil Transistoren gewachsen. Der Dual 'nur' um 26mm² und 10 Mil Transistoren. Das bedeutet, das der Großteil dessen das verändert wurde schon im Single enthalten ist. Da ein zweiter Core 'nur' 1 Millionen Transistoren bringt, müssen also 8 Millionen in etwas verbaut sein das beim Dualcore nicht verdoppelt wird.
Der Größenzuwachs ist auch zum größten Teil schon im Single enthalten. +20 mm² beim Single, zusätzliche 6 mm² durch den 2. Core. Da die Cores und die L2 scheinbar auseinandergerückt wurden (bessere Wärmeverteilung?), scheint auch der größte Teil des Fläschenwachstums bei etwas zu liegen das nicht verdoppelt wird.
2. Der L2 ist um 5,4 mm² geschrumpft. Ist dies nur durch eine höhere Dichte passiert oder hat man auch Transistoren weggelassen? Wenn der Prozess mittlerweile so gut ist, da weniger Fehler passieren, dann könnte man ja Redundanzen im Cache abbauen. Wenn das geschene ist, dann sind noch mehr Transistoren an anderen Stellen verbaut worden.
3. Der Memcontroller ist um 8% gewachsen. Das wird nicht an der Umstellung von DDR auf DDR2 liegen? Virtualisation? Würde die nicht auch den Cache betreffen? DDR + DDR2 damit, je nach Bedarf, das die auch für Sockel 939 verwendet werden kann?
Wofür sind diese Transistoren? Pacifica und Presidio? Etwas anderes? Vor allem weil es ja scheinbar etwas ist das nicht in den Cores und Cache ist? Der Single ist für mindestens 9 Millionen(+ ca. 13%) zusätzliche Transistoren, um 25,4mm² (ca +24%) gewachsen. Der Zweite Core bringt mindestens 1 Millionen zusätzliche Transitoren für zusätzliche 11,4mm².
Zusammengenommen bedeutet das: Da der 2. Core 6 mm² zusätzlich an größe bringt obwohl der L2 des zweiten Cores um 5,4mm² geschrumpft ist, geht recht viel an Fläche für das auseinanderrücken drauf, oder da ist etwas für 1 Millionen Transistoren mit maximal 11,4 mm² in den Core eingebaut worden.
wieso erhöht sich denn bei nicht einmal 5% mehr tranistoren die die-fläche um über 10%?
und dies, obwohl sich die fläche für cache auch noch verringert?
und wie lassen sich die geringeren astromaufnahmen erklären, obwohl es doch bei 90nm bleibt? da müssen die ingenieure ja echt zum tuning an jeder leiterbahn geschraubt haben...
a) Die Bereiche oben links und rechts von den Cores, die relativ gleichmäßig strukturiert sind , kosten Fläche. Die können eigentlich nur mit Pacifica zusammnehängen, aber darüber schweigt AMD aktuell (noch).
b) Das Geheimnis ist im Prinzip einfach: Absenkung der Vcc = Versorgungsspannung
Dazu mußte AMD natürlich das optimale aus den Transitioren heraus holen und den 90nm Prozess bis ins letzte unter Kontrolle haben. Einzelne Leiterbahnen / deren kapazitiven Widerstände dürfte der Computer durchgerechnet haben - Opteron sei Dank.
Zudem ist die DSL-Technik = gestrecktes Silicium ja von der Streckung abhängig, da könnte AMD vielleicht noch etwas 'nachgezogen' haben.
Nachdem AMD soviel Liebe zum Detail bei 90nm vorlegt, kann man natürlich denken, wozu schon jetzt 65nm nehmen und die ganzen 90nm in die Tonne kloppen ?
Ok, die Kaufleute bei AMD dürften schnell erkannt haben, daß fest angestellter Tuner-Ingenieure einfach viel billiger als 65nm Herstellungsgeräte sind.
Zudem hat AMD schon immer know how zwischen Halbleiter-Generationen vermischt.
Da könnten 'Abfallprodukte' aus der 65nm Fertigung in 90nm gerutscht sein, so wie eSiGe für SOI-65nm eigentlich ein Feature für SOI-45 sein sollte.
Also ähnlich wie bei W2k mit SP4 - hat mit dem ursprünglichen Windows 2000 auch nicht mehr ähnlichkeit unter der Haube.
Ok, paßt nicht in die verbreitete Vorstellung stets verzweifelter AMD-Ingenieure, die Montags die c't lesen und in der Mittagspause planet3dnow.de, damit sie wissen was Intel gerade macht und in Krisensitzungen dann neue Modelle raus kloppen.
Täglich wird zudem an der Fertigung geschraubt, die 65nm Entwicklungs-Ingenieure sind zur Hälte mit Nervenkrisen schon arbeitsunfähig. Wird bis Weihnachten die 65nm nicht fertig führt Hector Ruiz in DD die Scharia ein ...
Es scheint bei AMD eher alles geordent und mit interessanten Zwischenergebnisse zu funktionieren, oder ?
http://www.xbitlabs.com/images/news/2006-02/core_f.jpg
Kunibert_KA
16.02.2006, 21:31
wieso erhöht sich denn bei nicht einmal 5% mehr tranistoren die die-fläche um über 10%? und dies, obwohl sich die fläche für cache auch noch verringert? und wie lassen sich die geringeren astromaufnahmen erklären, obwohl es doch bei 90nm bleibt? da müssen die ingenieure ja echt zum tuning an jeder leiterbahn geschraubt haben...
Laut http://www.xbitlabs.com/news/cpu/display/20060215195420.html ist der L2 von 82,8mm² auf 77,4mm² geschrumpft. Das sind zusätzliche 5,4mm² die 'freigeworden sind. Wenn man die zu den 20mm² Wachstum des Single addiert, dann sind da 25,4mm² für irgendetwas draufgegangen bei 9 Millionen zusätzlichen Transitoren.
Wenn man den geringeren Flächenverbrauch dess L2 mit einbezieht, dann hat der Single fast ca 25% mehr Fläche für ca. 13% mehr Transitoren.
Kann es sein das man da etwas 'auseinandergerückt' hat um weniger Probleme mit Wärme zu haben? Besser takten zu können? Oder doch nur mehr Logik?
Kunibert_KA
16.02.2006, 21:47
a) Die Bereiche oben links und rechts von den Cores, die relativ gleichmäßig strukturiert sind , kosten Fläche. Die können eigentlich nur mit Pacifica zusammnehängen, aber darüber schweigt AMD aktuell (noch).
Ja, aber das kann es nicht allein sein. Da der Single im Verhältnis stärker als der von dir hier gezeigte Dual gewachsen ist, muss der Großteil des Wachstums bei etwas stattgefunden haben was beim Dualcore nicht verdoppelt ist im Verhältnis zum Single.
Memcontroller? X-Bar, Presidio, Pacifica?...
Nachdem AMD soviel Liebe zum Detail bei 90nm vorlegt, kann man natürlich denken, wozu schon jetzt 65nm nehmen und die ganzen 90nm in die Tonne kloppen ?
Ok, die Kaufleute bei AMD dürften schnell erkannt haben, daß fest angestellter Tuner-Ingenieure einfach viel billiger als 65nm Herstellungsgeräte sind.
Es scheint bei AMD eher alles geordent und mit interessanten Zwischenergebnisse zu funktionieren, oder ?
Ich habe gelesen das AMD weiterhin bei 90nm geblieben ist, da sie dadurch mehr Prozzis leifern können. Gerüchteweise ist die Ausbeute bei 90nm so gut, das sie mehr liefert als 65nm, da dort die Ausbeute (noch) nicht hoch genug ist. 65nm hat sicherlich auch mehr Taktpotential, aber dürfte schwierig sein das zu Begin in ausreichender Menge realisieren zu können.
Fazit: So lange 90nm, vor allem im hohen Taktbereich der sich teurer Verkaufen lässt, sicherer zu Prozessoren führt, verzichtet man auf die Einführung von 65nm und arbeitet weiter an dessen Optimierung.
http://www.xbitlabs.com/images/news/2006-02/core_f.jpg[/QUOTE]
Beim Dual ist das die von 194mm² auf 220 mm² gewachsen
Die Transitoren von 233 mil auf 243 mil
Beim Single ist das die von 106 mm² auf 126 mm² gewachsen und
die Transistoren von 120 mil auf 129 mil.Die Zahlen scheinen mir auch sehr interessant. Ich frage mich, wie das Verhältnis nach dem Umstieg auf einen moderneren Fertigungsprozess aussieht, denn Intel bringt beim XEON-MP mit Tulsa Kern, der mit dem derzeitigen Fertigungsprozess P1264 (65nm) gefertigt wird, 1330 Millionen Transistoren auf einer Grundfläche von 435 mm² unter. Wobei ein Großteil dabei auch die Caches entfällt. Beim kommenden Fertigungsprozess P1266 (45nm) wird die selbe Anzahl von Transitoren sogar auf eine Fläche von 155 mm² passen. Das ist erstaunlich wenig. Zudem werden die Leckströme auf 20 Prozent des bisherigen Wertes gedrückt werden können und dies, obwohl Intel bei herkömmlichen Silizium bleibt und nicht auf gestrecktes Silizium setzt, wie es AMD getan hat. :o
mtb][sledgehammer
16.02.2006, 22:58
Ich habe mal kurz die mir vorliegenden 4 K8 Die Photos in eine einzelne Grafik gepackt, damit man ein wenig besser nachvollziehen kann, wie sich in den einzelnen Cores die Proportionen geändert haben. zunächst sind alle auf die selbe Die Kante normiert. Falls ich am WE mehr Zeit finde werde ich für die drei 90 nm CPUs noch versuchen den richtigen Längenmaßstab zu finden, damit die Relationen auch absolut passen. Aber man erkennt schon ans diesem Bild, dass die IO Bereiche enorm an Bedeutung gewonnen haben
gast0972
16.02.2006, 23:08
Zumindest doch ne hübsche Spekulation, die unsere Gamer hoch erfreuen müßte, wenn es so auf den Markt käme.
Sehr unwahrscheinlich, da zukünftige Games zum Einen multihreaded gestrickt werden (Oblivion, SpellForce 2) und zum Anderen weil die GraKa-Treiber z.B. bei NVIDIA seit der 8?.xxer ForceWare auf DualCore getrimmt werden.
Wo ist dann da der Vorteil für Gamer? *noahnung*
mocad_tom
16.02.2006, 23:23
a) Die Bereiche oben links und rechts von den Cores, die relativ gleichmäßig strukturiert sind , kosten Fläche. Die können eigentlich nur mit Pacifica zusammnehängen, aber darüber schweigt AMD aktuell
http://www.xbitlabs.com/images/news/2006-02/core_f.jpg
*glaubses* *glaubses*
Hier hab ich es dir schon erklärt, das dies nicht für 10Mio. Transis. verantwortlich sein kann:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=4#post2592152
Spar dir den Antwort-Post, mach dir einfach mal die Arbeit und les dir das beim Hans de Vries durch.
Hauptverdächtiger für die 10Mio. Transis sind die Tag-Zellen für den L3-Cache.
Das ganze sieht so aus:
Der Opteron erhält L3-Cache - so wie es aussieht OnPackage - nicht OnDie.
Bei einem L2-Cache-Miss wird auf ein Verzeichnis zugegriffen, in dem nur gespeichert ist, !welche! Cache-Lines im L3 liegen.
http://s87785349.onlinehome.us/studies/others/alpha_cache/dcch_diag.jpg
Hier mal die ganze Seite durchlesen:
http://s87785349.onlinehome.us/studies/others/alpha_cache/alpha_cache.htm
Der Teil links im Bild stellt dabei da Directory dar. Die eigentlichen Cache-Lines sind ausgelagert, diese befinden sich auf dem separaten Die.
Stell dir einen Prozessor + eDRAM der XBox360 vor. Der Zugriff auf den eDRAM kostet Zeit, es wäre unsinnig wenn man jedesmal beim eDRAM anfragen müsste, dieser aber antwortet:
Ich habe das Datum nicht im L3-Cache - vergeudete Zeit.(L3-Cache-Miss)
Also was macht man? Man richtet auf dem Prozessor-Die ein Verzeichnis ein, das verwaltet welche Einträge gerade im L3-Cache sind.
Riesen-Vorteil:
Man kann sehr schnell sagen ob sich das Datum überhaupt im L3-Cache befindet, wenn ja, dann holt man sich die Cache-Line von dem Cache.
Wenn nein muss man den Mem-Controller heranziehen.
Und so ein Directory würde von der Anzahl der Transistoren ziemlich gut passen, ausserdem liegen diese Bereiche an den Aussenseiten, hier können also dann die Verbindungen zum separaten Die schön verdrahtet werden.
Zusätlich stützt das heutige Gerücht auf dem Inquirer meine These:
http://www.the-inquirer.com/?article=29738
>The next gen of AMD FX chips will have the full 'big cache' Opteron
>level of L3 cache, most likely 4MB.
Grüße,
Tom
Hi!
Würde das bedeuten das AMD belibig viel L3 cache anbinden könnte wenn sie wollen?
Also hätte der neue FX dann über 6 MB Cache *massa* *massa*
Lg Maxxx
mtb][sledgehammer
16.02.2006, 23:48
Da ich mitlerweile verstanden habe, um welche Bereiche es geht, und diese tatsächlich sehr gleichmäßig sind (was wiederum auf Speicherzellen und nicht auf Logik, wie sie für die P-Technologien notwendig sind, schließen lässt), bin ich immer mehr der Überzeugung, dass mocad_tom Recht hat und dies Tatsächlich die L3 Tags sind. 10 Mio entsprechen dabei ca. 200 KB, das passt ganz gut von der Größenordnung, wenn man es mal z.B. mit den L3 Tags von Itanium2 Madison vergleicht:
Sehr unwahrscheinlich, da zukünftige Games zum Einen multihreaded gestrickt werden (Oblivion, SpellForce 2) und zum Anderen weil die GraKa-Treiber z.B. bei NVIDIA seit der 8?.xxer ForceWare auf DualCore getrimmt werden.
Wo ist dann da der Vorteil für Gamer? *noahnung*
Die beiden Cores sind aber nicht beide ausgelastet oder belastet.
Wenn AMD z.B. Cool'n'Quite so modifiziert, daß nach 2* 2,8 GHz (FX62) eben 1* 3,0 o. 3,2 GHz / 1* 0 GHz eingestellt wird, wenn der GraKa-Treiber den zweiten Core nicht benötigt würde die Gesamtperformance ansteigen.
... Also was macht man? Man richtet auf dem Prozessor-Die ein Verzeichnis ein, das verwaltet welche Einträge gerade im L3-Cache sind.
Riesen-Vorteil:
Man kann sehr schnell sagen ob sich das Datum überhaupt im L3-Cache befindet, wenn ja, dann holt man sich die Cache-Line von dem Cache.
Wenn nein muss man den Mem-Controller heranziehen.
Und so ein Directory würde von der Anzahl der Transistoren ziemlich gut passen, ausserdem liegen diese Bereiche an den Aussenseiten, hier können also dann die Verbindungen zum separaten Die schön verdrahtet werden. ... *gg* es hat schon seinen Grund, weswegen ich immer wieder auf Alpha von DEC komme ;D ... gut gemacht mocad_tom. ;)
Das macht ein sehr rundes Bild und passt auch zu der (nahezu quasi) Zusage von AMD, (irgendwann später) Z-RAM zu berücksichtigen ... wann sagt denn AMD schon mal was, das ist sehr selten im Vorfeld!!!
MFG Bobo(2006)
Kunibert_KA
17.02.2006, 00:00
*glaubses* *glaubses*
Hauptverdächtiger für die 10Mio. Transis sind die Tag-Zellen für den L3-Cache.
Das ganze sieht so aus:
Der Opteron erhält L3-Cache - so wie es aussieht OnPackage - nicht OnDie.
Bei einem L2-Cache-Miss wird auf ein Verzeichnis zugegriffen, in dem nur gespeichert ist, !welche! Cache-Lines im L3 liegen.
Der Teil links im Bild stellt dabei da Directory dar. Die eigentlichen Cache-Lines sind ausgelagert, diese befinden sich auf dem separaten Die.
Stell dir einen Prozessor + eDRAM der XBox360 vor. Der Zugriff auf den eDRAM kostet Zeit, es wäre unsinnig wenn man jedesmal beim eDRAM anfragen müsste, dieser aber antwortet:
Ich habe das Datum nicht im L3-Cache - vergeudete Zeit.(L3-Cache-Miss)
Also was macht man? Man richtet auf dem Prozessor-Die ein Verzeichnis ein, das verwaltet welche Einträge gerade im L3-Cache sind.
Riesen-Vorteil:
Man kann sehr schnell sagen ob sich das Datum überhaupt im L3-Cache befindet, wenn ja, dann holt man sich die Cache-Line von dem Cache.
Wenn nein muss man den Mem-Controller heranziehen.
Und so ein Directory würde von der Anzahl der Transistoren ziemlich gut passen, ausserdem liegen diese Bereiche an den Aussenseiten, hier können also dann die Verbindungen zum separaten Die schön verdrahtet werden.
Grüße,
Tom
Es macht Sinn was du sagst, aber ich habe auch einige Probleme damit.
1. Ich kann den L3 ja bei Quad und evtl auch bei Dual-Core verstehen, aber bei Singlecore?
2. Wenn die zusätzlichen Transistoren in Directorys gehen: Weshalb nehmen sie dann so viel Fläche ein?
3. Was verbraucht im Core die zusätzliche Fläche/Transistoren?
4. Wieso ist der Memory-Controller so stark gewachsen?
mtb][sledgehammer
17.02.2006, 00:14
Es macht Sinn was du sagst, aber ich habe auch einige Probleme damit.
1. Ich kann den L3 ja bei Quad und evtl auch bei Dual-Core verstehen, aber bei Singlecore?
2. Wenn die zusätzlichen Transistoren in Directorys gehen: Weshalb nehmen sie dann so viel Fläche ein?
3. Was verbraucht im Core die zusätzliche Fläche/Transistoren?
4. Wieso ist der Memory-Controller so stark gewachsen?
Frage 1) kann ich im Moment auch nicht beantworten, einzig für Single Core Opteron CPUs halte ich dies für notwendig.
Frage 2): Schau dir das von mir gepostete Bild des Itanium an, dort belegen die Tags za. soviel Platz wie die 256 KB L2 Cache.
Frage 3): Wo im Core? Pacifica und Presidio wollen zumindest mit etwas Resourcen implementiert sein.
Frage 4): xBitLabs spricht von 8%. Die Frage ist dabei aber: was wird mit dem Memory Controller gemeint: Auf dem Die ist z.B. nicht hundertprozentig klar, wo die Crossbar ist, wie die System Request Queue ist und was wirklich der Speichercontroller ist. Im Falle eines L3 Controllers könnte dieser in diesem Bereich auch untergehen.
Hier hab ich es dir schon erklärt, das dies nicht für 10Mio. Transis. verantwortlich sein kann:
http://www.planet3dnow.de/vbulletin/showthread.php?t=242136&page=4#post2592152
Spar dir den Antwort-Post, mach dir einfach mal die Arbeit und les dir das beim Hans de Vries durch.
Hauptverdächtiger für die 10Mio. Transis sind die Tag-Zellen für den L3-Cache.
http://www.tecchannel.de/technologie/prozessoren/432777/index9.html
'Nested Page Tables'
Der Nested-Paging-Modus von Pacifica stellt dagegen jeder VM ein eigenes virtualisiertes CR3-Register zur Verfügung. Dieses so genannte gCR3 wird bei jedem VM-Ein- und Austritt geladen und gespeichert. Die Ergebnisse sind im TLB gepuffert. Es wird mit den Nested Paging zwar eine zusätzliche Übersetzungsschicht eingeführt, die Vorgänge erfolgen aber Hardware-basierend und somit mit höherer Effizienz.
Was und wieviele Speicherzellen / Register da entstehen läßt sich aus der Beschreibung nicht abschätzen.
Besonders interessant an der L3-These:
- die erste Pad-freie Anbindung von Zusatzchips
- ein Single Core der dann sogar zwei L3 (links / rechts) erhält ... alle Achtung, wer brauch einen Single-Core mit L3 ?
- Intels Itanium läßt keine ähnlichen Strukturen erkennen, obwohl der ja L3 (Tag)enthält (s.u.)
- obige L3 Erklärung berücksichtigt nicht die durchgehende Virtualisierung innerhalb des Pacifica-Cores
In Zusammenfassung: AMD baut angeblich Cores in riesiger Stückzahl, die niemals einen L3 sehen werden und nur Strom fressen ..
Man sollte vielleicht AMD-Aktien verkaufen, in DD arbeiten wohl halb Wahnsinnige ?
Itanium zum Vergleich:
http://www.pc-erfahrung.de/Daten/Bilder/Prozessoren/Intelitanium2_04.jpg
mocad_tom
17.02.2006, 00:25
1. Ich kann den L3 ja bei Quad und evtl auch bei Dual-Core verstehen, aber bei Singlecore?
Das quält mich auch!
Ein Single-Core, mit DDR2-800 und zusätzlich L3-Cache.
Das Ding hat ein Speichersubsystem - gewaltig.
Ich könnte es mir für durchsatzorientierte Anwendungen vorstellen.
Evtl. sind dann diese Single-Cores "nur" Datenlieferanten für die via HTX angekoppelten Spezialkarten(Java-Beschleuniger-Karten etc.)
Grüße,
Tom
Kunibert_KA
17.02.2006, 00:28
[sledgehammer;2604999']Frage 1) kann ich im Moment auch nicht beantworten, einzig für Single Core Opteron CPUs halte ich dies für notwendig.
Frage 2): Schau dir das von mir gepostete Bild des Itanium an, dort belegen die Tags za. soviel Platz wie die 256 KB L2 Cache.
Frage 3): Wo im Core? Pacifica und Presidio wollen zumindest mit etwas Resourcen implementiert sein.
Frage 4): xBitLabs spricht von 8%. Die Frage ist dabei aber: was wird mit dem Memory Controller gemeint: Auf dem Die ist z.B. nicht hundertprozentig klar, wo die Crossbar ist, wie die System Request Queue ist und was wirklich der Speichercontroller ist. Im Falle eines L3 Controllers könnte dieser in diesem Bereich auch untergehen.
zu 2: Aber ist ein Directory nicht eher wie ein Cache dichter packbar? Ist ja eher etwas homogenes als komplexe Logik?
zu 3: Pacifica, Presidio, L3-Tags, Memory-Controller etc. sind ja alles Sachen die ein Mal vorhanden sind. Die hat der Singlecore wie auch der Dualcore ja nur ein Mal.
Da aber, wie ich oben schrieb, ja durch den 2. Core auch einiges an Fläche und mindestens 1 Millionen Transistoren dazukommen, bedeutet das doch das neben den Dingen die ein Mal für jeden Prozessor dazugekommen sind, auch der einzelne Core gewachsen sein muss. Also etwas von dem was bei Dualcore gegenüber dem Singlecore doppelt ist, ist gewachsen oder dazugekommen. Da der L2 an Fläche und evtl an Transitoren geschrumpft ist, müsste es ja etwas an Logik sein?
zu 4: Wenn ich mir die Bilder ansehen dann ist der eigentliche Controller auch nicht so gewachsen, sondern die (DDR2)-Pads. Von daher DDR + DDR2 damit man die Dies auch noch für S939 verwenden kann?
Wie sieht es eigentlich mit der Logik für die X-Bar aus? Wenn man da den L3, einen dritten Core (Tricore) oder 2 weiter für Quadcore anhängen möchte, müsste die doch auch überarbeitet werden? Dafür evtl auch der größere Abstand zwischen den Cores?
Was ist denn hier los ?
Hat das Forum einen Knacks, oder die User ? Doppelt und Dreifachposts ... so bekommt man auch Beiträge .. lol
Zum Thema Abstand der L2 Caches ... wenn man den zugehörigen Artikel von xbitlabs duchlesen würde, wüsste man, dass sie Leutchen dort meinen, dass das wegen zusätzlicher Logik ist, die die Verbindung der beiden L2s untereinander verbessern sollen. Bringt wohl wieder ein paar Nanosekündchen, wenn man die SRQ nicht benutzen muss.
Zum Thema L3 Cache & zusätzliche Transistoren ...
Warten wir bis zum 30. April, dann wissen wir mehr :)
Lasst Euch nicht vom spekulieren abhalten, aber schlagt Euch nicht :)
ciao
Alex
Edit: ein "aber" zuviel, will hier niemanden vom Spekulieren abhalten :)
Zum Thema Abstand der L2 Caches ... wenn man den zugehörigen Artikel von xbitlabs duchlesen würde, wüsste man, dass sie Leutchen dort meinen, dass das wegen zusätzlicher Logik ist, die die Verbindung der beiden L2s untereinander verbessern sollen. Bringt wohl wieder ein paar Nanosekündchen, wenn man die SRQ nicht benutzen muss.
(Aktuelle) L2-Performance siehe http://www.tecchannel.de/server/hardware/429789/index17.html
Im Vergleich zu den möglichen ca. 12 GByte/s bei DDR-II 800 ist der L2-Cache ja aktuell viel zu langsam angebunden.
Somit könnten die zusätzlichen Transistoren im Zusammenhang mit dem L2-Redesign stehen.
Dies erklärt noch nicht die Zahlen beim Vergleich Single-Core zu Dual-Core, aber andere Veränderungen im Dual-Core unter Wegfall von Transistoren könnten dieses obskure Zahlenverhältnis ergeben.
Für Erweiterungen bzgl. L3 Tag könnte einmal der (freie) Platz zwischen den beiden Cores gedacht sein. Bei 90nm noch unbenutzt, ab 65nm Shrink dann mit Bauteilen versehen.
@Opteron - hier ist die Spielwiese für 'S p e k u l a t i o n e n' - belegbare Infos wandern an andere Stelle. Und die Prügeln im Internet geht selbst per DSL technisch nicht ...
mocad_tom
17.02.2006, 13:32
@rkinet
So wichtig ist dein gelaber nicht, das es gleich zweimal in dem Post drinstehen muss.
@rkinet
So wichtig ist dein gelaber nicht, das es gleich zweimal in dem Post drinstehen muss.
War versehentlich doppeltabgeschickt worden.
@mocad_tom, wenn AMD nur einen Pseudo-Quad aus 2* Dual-Core ausliefern will, wie soll das dann mit der Core-Abschaltung dort funktionieren ?
Wird das Feature wieder in die Schublade geschoben bis zum ersten echten Quad von AMD ?
mocad_tom
17.02.2006, 15:32
Von wegen in der Schublade.
Es wird spekuliert, das es Split-Voltage für die neuen Sockel geben soll - right.
Also kann man pro Kern die Voltage regulieren.
Was spricht dagegen die Drähte so zu verlegen, das man zwar die beiden Kerne auf einem Die immer mit der selben Voltage befeuert, die beiden Dies aber unabhängig voneinander ansteuert.
Szenario Dual-Opteron:
Core1 -> 0.9V
Core2 -> 1.25V
Szenario MCM-Quad-Opteron:
Die1 -> 0.9V
Die2 -> 1.25V
Grüße,
Tom
Von wegen in der Schublade.
Es wird spekuliert, das es Split-Voltage für die neuen Sockel geben soll - right.
Also kann man pro Kern die Voltage regulieren.
Was spricht dagegen die Drähte so zu verlegen, das man zwar die beiden Kerne auf einem Die immer mit der selben Voltage befeuert, die beiden Dies aber unabhängig voneinander ansteuert. da spricht in der Tat gar nichts dagegen.
1. War das schon so angekündigt.
2. Hat IBM mit dem PPC 970MP (http://www.orthy.de/modules.php?name=Encyclopedia&op=content&tid=348) solch eine Feinregelung der Spannungsversorgung ... schon seit dem Sommer 2005 ...
So gesehen sind weder AMD, noch Intel da besonders originell, es ist an der Zeit und liegt in der Luft.
MFG Bobo(2006)
Ich hab heute nen Artikel zur Crysis Engine gelesen, da stand dass die Engine Dual Cores auslasten will. Was ich mich Frage: Warum sind Single COres überhaupt nen bisschen schneller? Wenn die CPU Kerne zum Rechnen hat müsste sie schneller sein oder?
Kann mir das nur erklären dass die Leistung dann wirklich durch Taktfrequenz bestimmt wird, nur warum sollten dann die DC nen Leistungsvorteil bei der Crysis Engine haben?
Kunibert_KA
18.02.2006, 01:53
Wenn ich mir die Fotos ansehen dann ist ja offensichtlich das der L2 in der Fläche geschrumpft ist. Das sich AMD des Cache annehmen würde war zu erwarten, da sie dort bisher im Nachteil sind. Wenn sie den L2 angefasst haben warum nicht auch den L1? In der Tat finde ich das, so weit man das erkennen kann die Zellen auch kleiner geworden sind. Da aber die Fläche des Caches nicht abgenommen hat, kann man vermuten das die Anbindung verbreitert wurde. AMD war in der Transferrate ja bisher schlechter. Hier könnte also eine Verbesserung stattgefunden haben. Wenn man schon am Cache arbeitet hat man evtl auch noch etwas an der Latenz tun können? Oder anderen Dingen? Wenn ich den Cache schon neu packe, dann würde ich doch bei der Gelegenheit auch optimieren.
Der breitere Spalt zwischen den L2-Caches könnte auch eine Vorbereitung auf Tri/Quadcore sein. Aus termischen Gründen müsste man ja versuchen die wärmsten Stellen möglichst weit von einander zu entfernen. Das würde wohl bedeuten die Cores in die Ecken und den L2 in die Mitte. Da die Cores ja mitteinander Kommunizieren müssen, muss ja Platz für die Datenpfade sein. Dafür könnte dieser Spalt vorgesehen sein. Er kann sich aber auch nur dadurch ergeben haben, das die Cores an ihrer Stelle geblieben sind und die Schrumpfung des L2 eben diesen Spalt hat entstehen lassen.
Sinnvoll würde es auch sein die Branch prediction zu verbessern. Die ist beim A64 ja schlechter als bei Intel.
Da ja aus Marketinggründen in Zukunft stark auf Watt, Watt/Performance, IPC etc. gechaut wird und weniger auf GHz und absolute Performance, wird AMD dort etwas tun müssen. Gegenüber Netburst hat AMD ja immer gnüsslich auf IPC, Watt etc. hinweisen können. Der Conroe wird in diesen Disziplinen wohl nicht schlechter, sondern eher besser sein. Der Punkt wo man das wohl am Besten machen könnte, ist die Latenz und Bandbreite der Caches zu verbessern und die Branch prediction zu optimieren.
Da ja aus Marketinggründen in Zukunft stark auf Watt, Watt/Performance, IPC etc. gechaut wird und weniger auf GHz und absolute Performance, wird AMD dort etwas tun müssen. Gegenüber Netburst hat AMD ja immer gnüsslich auf IPC, Watt etc. hinweisen können. Der Conroe wird in diesen Disziplinen wohl nicht schlechter, sondern eher besser sein. Der Punkt wo man das wohl am Besten machen könnte, ist die Latenz und Bandbreite der Caches zu verbessern und die Branch prediction zu optimieren.
AMD will ja je nach Anwendungsfall unterschiedlich optimieren.
Eine Notebook-CPU wird bei 'Watt' am sensibelsten betrachtet, beim Server muß Verbrauch UND Performance stimmen. Desktop hat wieder andere Anforderungen, auch abhängig von Anwender.
Aber die Optimierung am L2 war sicherlich eine wichtige Zwischenstufe.
Änderungen am Core hat AMD aber mit 2008 angegeben, wobei auch Hypertransport /Direct Connect überarbeitet werden soll.
Auch wird ja SSE4 / Conroe eingebaut werden müssen, wohl auch 2008 (s. 3-Jahres Roadmap).
Meiner Meinung nach hat AMD per SOI-65nm eSiGe aber ein heißes Eisen im Ofen, wo man ruhig Intels Roadmap-Künste über sich ergehen lassen kann.
Die letzte große Steigerung beim Marktanteil erfolgte NACH der Ankündigung von Intel zur neuen Plattform. Anscheinend halten sich wenige Käufer monatelang vom Computerladen fern oder träumen von der tollen Zukunft. Die aktuellen Angebote werden aufgegriffen und in Mehrheit weit unterhalb der Spitzen-CPUs gekauft. Für AMD hier kein Problem ...
mocad_tom
18.02.2006, 11:10
http://www.realworldtech.com/page.cfm?NewsID=354&date=02-17-2006#354
David T. Wang schaut sich sowas immer gerne von der fertigungstechischen Seite an.
Man beachte den normalisierten Shmoo-Plot.
1.00 bei Vdd entspricht 1.35V
1.00 beim Takt entspricht 2.6GHz
Demnach könnte man den hier getesteten Prozessor mit 1.35V und 2.72GHz betreiben.
Oder den Prozessor mt 2.6GHz und 1.16V betreiben.
Mein VCoreMinTest mit eigentlich nichts anderes:
http://www.planet3dnow.de/vbulletin/showthread.php?p=2263183#post2263183
Grüße,
Tom
http://www.realworldtech.com/page.cfm?NewsID=354&date=02-17-2006#354
David T. Wang schaut sich sowas immer gerne von der fertigungstechischen Seite an.
Man beachte den normalisierten Shmoo-Plot.
1.00 bei Vdd entspricht 1.35V
1.00 beim Takt entspricht 2.6GHz
Demnach könnte man den hier getesteten Prozessor mit 1.35V und 2.72GHz betreiben.
Oder den Prozessor mt 2.6GHz und 1.16V betreiben.
Mein VCoreMinTest mit eigentlich nichts anderes:
http://www.planet3dnow.de/vbulletin/showthread.php?p=2263183#post2263183
Grüße,
Tom
Danke fün Link.
AMD bringt aber in wenigen Wochen eine Opteron 256 mit 1* 3,0 GHz, wohl kaum mit einer Spannung über 1,35 V nominal. Alles noch für Stepping E
Auch für Dual-Core könnte AMD fast diesen Wert erreichen, aber in minimaler Ausbeute (Statistik).
Allerdings darf man dies im unteren Taktbereich nicht ignorieren, da AMD ja drosselt bzw. hier unterhalb der Möglichkeiten spezifiziert (der alte AMD-TDP Witz - die 89 Watt CPU mit real 50 Watt selbst bei burn in)
Bei Stepping F sind ja die 65 Watt Modelle (bis X2 4800+) schon bekannt, aus http://www.xbitlabs.com/news/cpu/display/20060215195420.html kann man dafür jetzt 1,2 V ansetzen. Die Tabelle in obigen Link ist korrekt, die 95 Watt und max. 2,6 GHz aber zu konservativ angesetzt. Man sollte immer berücksichtigen, daß AMD 95 Watt für hohe Yieldrate ansetzt (also möglichst viele Core so verkaufen zu können), würde AMD stärker selektieren (wie Intel) wären die Werte deutlich besser.
Da Intel per rießiger Stückzahl und der zusätzlichen Celeron-Ausschleußung auch die wenigen besonders hervorragenden Cores vermarkten kann entsteht hier ein Takt-Nachteil für AMD. Der realtiviert sich aber ab der Mittelklasse, da hier keine Selektion mehr (technisch bedingt) nötig ist.
Für die Abschätzung der max. möglichen Produkte ist die besser Selektion bei Intel natürlich wichtig, aber Intel hat ja dadurch auch offensichtlich das Stückzahlproblem (s. aktuell 955XE). Beim Technologievergleich über jeweilige Spitzenprodukte ensteht aber ein systematischer Fehler zugunsten von Intel.
OC kann man eh nur bedingt verwenden. Die Hersteller wissen selbst am besten was sie können. Und Intel würde sicherlich die Läden mit 955XE voll stopfen, wenn die Fabs genügend Cores dafür liefern könnten. Dabei sind dies technisch betrachtet lediglich Single-Cores in 65nm, die Intel auch schon für den Celeron ausschleußt.
AMD hingegen hat den FX60 überall im Verkauf trotz ja deutlich niedrigerer Stückzahlen in DD und ohne die Zusatzselektion per Celeron/Sempron.
Für den (4M-) Conroe ergibt sich auch in der Roadmap schon die Selektion im Hintergrund. Da wandert einiges in langsamere Xeone, einiges vielleicht als Merom (sollte der Herstellungsprozess gleich sein), manches wird zu 2M Conroe degradiert und dann noch die Selektion per Single-Core oder Celeron.
Auch die 2,4 und 2,67 GHz Modelle sind also schon in höheren Sphären der Selektionskunst einzuordenen. Noch höher geht natürlich auch - aber in welcher Stückzahl ?
---
Noch etwas zum Link:
Intel beschränkt sich beim Tulsa auf 100% stromsparende Transistoren, während AMD nur 90% davon auf dem DIE hat, zusätzlich 9% mit 'normalem' Schaltverhalten und 1% High Speed Transistoren. AMD könnte also theoretisch den ganzen Core per 90nm noch viel schneller machen, dann würde der aber in Leckströmen und den kapazitiven Leistungen 'ertrinken'. Wäre Intel bei BTX / Netburst geblieben, hätte AMD also wohl mit 150-200 Watt Dual-Core gekontert. So wird jetzt auf low power gedrosselt und an einigen Stellen noch ein 'Turbo' per schnell schaltenden Transitoren aktiviert.
Dies paßt natürlich nicht zu gängigen Vorstellungen vom täglichen Kampf bei AMD um die max. Taktrate, entspricht aber uralten technischen Angaben von AMD.
mtb][sledgehammer
20.02.2006, 02:17
Was mir erst jetzt bewusst wird: beim Wechsel vom Single Core zum DualCore haben wir einen viel massiveren Transistor Zuwachs völlig undiskutiert gelassen: zur Erinnerung, für den Single Core wurden bislang immer 106 Mio Transistoren angegeben, für den Dual Core 233 Mio. Eine einfache Verdopplung würde nur 212 Mio, also 21 Mio weniger ergeben. Unberücksichtigt bleibt bei dieser Betrachtung, dass deutliche Teile gar nicht verdoppelt wurden. In sofern sind die Zuwächse von 10 Mio von E nach F doch relativ gering. Bzw. es sagt uns, dass die absolute Zahl des Zuwachses nicht so scharf bewertet werden kann.
[sledgehammer;2609063']Was mir erst jetzt bewusst wird: beim Wechsel vom Single Core zum DualCore haben wir einen viel massiveren Transistor Zuwachs völlig undiskutiert gelassen: zur Erinnerung, für den Single Core wurden bislang immer 106 Mio Transistoren angegeben, für den Dual Core 233 Mio.
Reservezellen im L2-Cache ?
Bei DRAM-Herstellern seit Ewigkeiten üblich, damit die Ausbeute erhöht wird.
AMD konnte beim Designs des Dual-Core ja nicht ahnen, daß der Bedarf für Desktop und auch 2* 512k so groß wird. Zudem entwickelte man den extra Core-Manchester, was auf eine möglichst große Ausbeute beim echten 2* 1M Core als Zielvorgabe schließen läßt.
Jetzt hat AMD aber einen Riesenmarkt für 2* 512k Cores, da kann AMD reichlich teildefekte /teil-lahme (zu schlechte Takraten in L2-Zellen) einfach dazu degradieren und auf Reservezellen verzichten.
Ok, dafür gibt es keine Quelle, aber AMD hatt ja schon beim ersten K8 = Opteron auffallenderweise keine 512k Selektion, während bei anderen AMD und Intel-Produkten ja in Massen teildeaktivierte Cores anfallen.
vBulletin® v3.8.7, Copyright ©2000-2012, vBulletin Solutions, Inc.