News AMD präsentiert Jaguar-Quad-Modul auf der ISSCC (Update)

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.645
Renomée
2.254
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
<a href="http://www.planet3dnow.de/vbulletin/link" target="_blank"><img src="http://www.planet3dnow.de/photoplog/images/54308/1_AMD-Logo.png" border="0" alt="" onload="NcodeImageResizer.createOn(this);" /></a>Auf der zur Zeit stattfindenden International-Solid-State-Circuits-Konferenz (ISSCC) hat AMD heute das CPU-Modul der Kabini-APU vorgestellt, welches aus vier Jaguar-Kernen und 2 MB L2-Cache besteht. Im Web sind bereits erste Die-Shots aufgetaucht, die wir unseren Lesern natürlich auch nicht vorenthalten wollen: <br /><br /><div align="center"><a href="http://www.planet3dnow.de/photoplog/index.php?n=22960"><img src="http://www.planet3dnow.de/photoplog/file.php?n=22960&amp;w=l" border="0" alt="" /></a><br /> Kabini-CPU-Modul-Die-Shot</div><br /> Wie man sieht sind die vier Jaguar-Kerne unten im Bild zu sehen. Darüber sind 4 L2-Cachesegmente à 512 kB zu sehen, wobei je 2 Segmente durch das L2-Cacheinterface (L2I) in der Mitte räumlich getrennt sind. Ein GPU-Teil fehlt.<br /> <br /> Neben der bei den Jaguar-Kernen gesteigerten Rechenleistung, deren Details schon früher bekannt gegeben wurden (<a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&amp;id=1346188254" target="_blank">wir berichteten</a>), nannte AMD neben der Die-Größe von 3,1 mm² für einen einzelnen Jaguar Kern ohne L2-Cache auch den Die-Flächenbedarf für das gesamte Vierkern-CPU-Modul mit 2 MB L2-Cache in Höhe von 26,2 mm2. Zum Vergleich sei hier an den Flächenbedarf eines Bulldozer-Moduls mit ebenfalls 2 MB L2 erinnert. Dieser beträgt 30,9 mm² - allerdings in 32 nm. Umgerechnet mit dem Half-Node-Schrumpf-Faktor von 0,707 (reziproke Wurzel aus 2) entsprächen dies 22 mm² in einem hypothetischen 28-nm-Gate-First-Prozess, der aber nicht 1:1 mit dem bei Jaguar verwendeten Gate-Last-Prozess vergleichbar ist. Laut Globalfoundries betrüge der Gate-Last-Nachteil zwischen 10 und 20%. Das Jaguar-Quad-Modul wäre demnach mit dem Beispielfaktor 0,85 (15%) bei Globalfoundries 22,2 mm² groß. Grob kann man also festhalten, dass sich der Die-Flächenbedarf nicht groß unterscheiden dürfte. Weitere technische Details hat AMD noch kurz in einer Übersichtstabelle zusammengefasst:<br /> <br /> <div align="center"><a href="http://www.planet3dnow.de/photoplog/index.php?n=22959" target="_blank"><img src="http://www.planet3dnow.de/photoplog/file.php?n=22959&amp;w=l" border="0" alt="" onload="NcodeImageResizer.createOn(this);" /></a><br /> Jaguar-Bobcat-Vergleich</div><br /> Zusätzlich ging AMD laut dem Bericht auf elektroniknet.de noch auf ein paar Einzelheiten zum Power-Management ein. So wären die Latenzzeiten bei den Übergängen von diversen Stromsparmodi zum Volllast-Betrieb verkürzt worden. Nominell um ca. 20 Prozent beim Übergang aus dem C6 Modus und um mehr als 70 Prozent beim Aufwachen aus dem CC6-Modus. Weitere Details zum Stromverbrauch wurden bereits vor Kurzem in einem Artikel auf <a href="http://www.eetimes.com/design/eda-design/4406251/Reducing-power-in-AMD-processor-core-with-RTL-clock-gating-analysis-" target="_blank">eetimes </a>genannt. Interessantester genannter Parameter war dabei, dass trotz um 15 Prozentpunkte gesteigerter Rechenleistung (IPC) bei der Jaguar-Architektur 25% weniger Schaltkreise (Flip-Flops) aktiv schalten, wodurch natürlich der Stromverbrauch sinkt. Man kann also von zusätzlichen Stromeinsparungen durch die Architektur - nicht nur durch den feineren 28-nm-Herstellungsprozess - rechnen.<br />
<b>Update 20. Februar 2013</b>
Mittlerweile hat uns der komplette Foliensatz der ISSCC-Präsentation erreicht. Dieser kann in unserer Fotogalerie begutachtet werden. Neben vielen technischen Detailinfos wollen wir noch die folgende Folie, die einen sogenannten Shmoo-Plot für die Bobcat- und Jaguar-Architektur zeigt, näher betrachten:

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=23156"><img src="http://www.planet3dnow.de/photoplog/file.php?n=23155&w=l"></a>
Shmoo-Plot der Bobcat (BT40) und Jaguar (JG28)-Architektur</center>

Leider hat AMD die Achsenbeschriftungen normalisiert, sodass man keine konkrete Spannungswerte und Taktfrequenzen erkennen kann, jedoch ist der Verlauf der beiden Treppenkurven interessant genug. Wie man nämlich deutlich erkennen kann ist die Kurve der Jaguar-Architektur deutlich steiler, der Takt steigt ab dem Wert "0,8" überproportional stark an. Dies bedeutet, dass Jaguar eine Erhöhung der Kernspannung in einem deutlich höheren Takt umsetzen kann. Die Bobcat-Kurve ist dagegen deutlich flacher, im Vergleich zur Spannungsachse ist der Verlauf der Taktkurve eher unter-proportional.

Ausgedrückt in reine Beispielzahlen bedeutet das grob, dass eine Spannungserhöhung um z.B. 10% den Takt bei Jaguar um 15% erhöht, während man bei Bobcat nur 5% Plus erzielen kann. Dies ist kein Verdienst des besseren Herstellungsprozesses, denn in diesem Fall sollten die beiden Treppenkurven nur versetzt und parallel verlaufen.

Da die Verlustleistung stark von der Kernspannung abhängt und IPC-Verbesserungen in obiger Grafik nicht berücksichtigt werden, kann man unter dem Strich also einen deutlich verbesserte Leistung/Watt-Koeffizienten von Jaguar gegenüber Bobcat erwarten: Der Takt steigt, die Rechenleistung pro Mhz steigt, aber der Energiebedarf der Architektur sinkt.
<br /> <b>Links zum Thema:</b><ul><li><a href="http://www.eetimes.com/design/eda-design/4406251/Reducing-power-in-AMD-processor-core-with-RTL-clock-gating-analysis-" target="b">Reducing power in AMD processor core with RTL clock gating analysis</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&amp;id=1346188254">AMD präsentiert Jaguar: Nachfolger der Bobcat-Architektur auf Hotchips-Konferrenz</a></li><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23141">Alle Präsentationsfolien in der Fotogalerie - Teil 1</a></li><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23156">Alle Präsentationsfolien in der Fotogalerie - Teil 2</a></li><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23159">Alle Präsentationsfolien in der Fotogalerie - Teil 3</a></li></ul><br /> <b>Quelle:</b> <a href="http://www.elektroniknet.de/halbleiter/prozessoren/artikel/95059/" target="b">Jaguar - der neue Low Power CPU-Core von AMD</a><br /> <br /> <a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=411092">>> Kommentare</a>
 
Umgerechnet mit dem Half-Node-Schrumpf-Faktor von 1,19 (vierte Wurzel aus 2) entsprächen dies 26 mm² in einem hypothetischen 28-nm-Gate-First-Prozess, der aber nicht 1:1 mit dem bei Jaguar verwendeten Gate-Last-Prozess vergleichbar ist. Grob kann man aber festhalten, dass sich der Die-Flächenbedarf nicht groß unterscheiden dürfte.

Ich verstehe jetzt nicht ganz, was du mit diesem Vergleich aussagen möchtest. Du vergleichst 4 Jaguar Kerne mit 2MiB L2 mit 2 Bulldozer-Kernen mit 2MiB. Willst damit sagen, dass eben doppelt so viele Jaguarkerne die gleiche Fläche benötigen, wie Bulldozer-Kerne? Aber das funktioniert ja auch nicht, weil ja pro Bulldozer-Kern doppelt so viel L2 Cache vorhanden ist. Keine Ahnung, klär mich bitte mal über deine Gedankengänge auf :D

LG
 
Das heißt nur, dass eine "Kabini-Computeunit" von der Fläche her mit einem Bulldozer Modul vergleichbar ist ;)
 
Ich verstehe jetzt nicht ganz, was du mit diesem Vergleich aussagen möchtest. Du vergleichst 4 Jaguar Kerne mit 2MiB L2 mit 2 Bulldozer-Kernen mit 2MiB. Willst damit sagen, dass eben doppelt so viele Jaguarkerne die gleiche Fläche benötigen, wie Bulldozer-Kerne? Aber das funktioniert ja auch nicht, weil ja pro Bulldozer-Kern doppelt so viel L2 Cache vorhanden ist. Keine Ahnung, klär mich bitte mal über deine Gedankengänge auf :D
Wieso funktioniert das nicht? Ist doch nett, dass 4 Jaguar Kerne mit 4 Threads und genausoviel L2-Cache, nicht mehr Fläche verbrauchen als ein BD-Modul mit nur 2 Threads und ebenfalls 2 MB L2.

Also im Endeffekt 4 Threads gegen 2 Threads. Bin gespannt wieviel mehr Takt so ein BD-Modul bei z.B. Cinebench oder x264 braucht, um mit 4 Jaguarkernen gleichziehen zu können. Das wird keine einfache Aufgabe.

Oder ganz klar ausgedrückt: Ein Vishera könnte anstatt der 4 BD-Module mit 8 Threads auch "einfach" 4x4 Jaguar Module mit 16 Threads haben. Nun würden die nicht soviel Takt und dann auch nicht soviel single-thread Leistung erreichen, aber wenn dafür mehr Gesamtrechenleistung zur Verfügung stünde, und der Stromverbrauch geringer ausfiele, dann interessierte das im Serverbereich keinen.

Höchstens im HPC-Bereich würde man das fehlende FMA vermissen. Da sehe ich BD noch vorne. Aber sonst ... und v.a. auch im Hinblick aufs Gerede von Bulk-Prozessen, die sowieso keinen hohen Takt zulassen würden ... sehe ich mittelfristig eher Jaguar vorne. Aber warten wir mal Steamroller ab. Leider gabs zu den Kernen keine neuen Infos, stattdessen wurde übers Holodeck schwadroniert.
 
Wieso funktioniert das nicht? Ist doch nett, dass 4 Jaguar Kerne mit 4 Threads und genausoviel L2-Cache, nicht mehr Fläche verbrauchen als ein BD-Modul mit nur 2 Threads und ebenfalls 2 MB L2.

Naja, aber zum Teil sind das eben Äpfel mit Birnen, weil eben 2 BD-Module, also 4 Threads, mit 2MiB L2 Cache (nicht 4MiB L2-Cache) nicht doppelt so groß wären, als eben 4 Jaguar-Threads mit gleicher Menge L2-Cache. In 32nm ist ein BD-Modul ohne L2 Cache 18mm² groß. Also 30,9+18=48,9mm² dividiert durch 1,19 = 41mm² für 4 Bulldozer-Threads mit 2MiB L2-Cache. Man muss da mit dem "doppelt" schon vorsichtig sein.
 
Naja, aber zum Teil sind das eben Äpfel mit Birnen, weil eben 2 BD-Module, also 4 Threads, mit 2MiB L2 Cache (nicht 4MiB L2-Cache) nicht doppelt so groß wären, als eben 4 Jaguar-Threads mit gleicher Menge L2-Cache. In 32nm ist ein BD-Modul ohne L2 Cache 18mm² groß. Also 30,9+18=48,9mm² dividiert durch 1,19 = 41mm² für 4 Bulldozer-Threads mit 2MiB L2-Cache. Man muss da mit dem "doppelt" schon vorsichtig sein.
Wenn man aber 1 BD Modul (2 threads) mit 4 Jaguarkernen (4 threads) vergleichst, sind beide (mit je 2 MiB L2 Cache) etwa gleich gross. Da interessiert natürlich dann noch die Leistung pro Watt bzw. Takt.
Kabini soll in der 4 Core Variante ja mit einer TDP von 25W aukommen wobei da auch noch die iGPU mitgefüttert wird. 4 Jaguarkerne auf 2 GHz werden warscheinlich weniger als 1 BD Modul auf 4 GHz verbrauchen. Fragt sich nur, wer dabei schneller ist ;)

Edit:
Igendwie erinnert mich der Die-Shot etwas an Intel Prozessoern, dort sind die Kerne auch immer? so schön in einer Reihe nebeneinander angeordnet. Bei AMD ist meistens der Cache dazwischen, also bei BD oder Llano. Liegt aber evtl. einfach an der Leistungsaufnahme, es muss ja nicht so viel Wärme abtransportiert werden.
 
Zuletzt bearbeitet:
Oder ganz klar ausgedrückt: Ein Vishera könnte anstatt der 4 BD-Module mit 8 Threads auch "einfach" 4x4 Jaguar Module mit 16 Threads haben.

Klar, könnte er. Nur wäre er wegen der vier Speicherkanäle sehr viel teurer, würde wegen der Logik für das Speichermanagement auf ein komplettes Redesign hinaus laufen und hätte wegen der Fertigung in 28nm Bulk immer noch die Taktgrenze fest eingebaut. Ach ja, bei 4*25W würde er auch noch den Nimbus der Sparsamkeit verlieren.
 
sag mal eher 4x10W - REST ist Grafik ;)

Und die Grafikanteile würden ja bei einer CPU statt APU wegfallen ... - also 4x4 auf G34 wäre durchaus machbar - je ein Speicherkanal des G34 für je ein DIE alles auf einem Träger mit alternativen Crossbar....
 
sag mal eher 4x10W - REST ist Grafik ;)
Jo und mit DDR4 statt 3 reichten auch 2 Kanäle :)

@LoRDxRaVeN:
Natürlich ist das ein Äpfel und Birnen Vergleich, darum gehts doch genau. Würdest Du zum gleichen Preis eher 2 Äpfel oder 4 Birnen kaufen? Sieht man mal vom eigenen Geschmack ab (soll ja Leute geben, die keine Birnen mögen), wird man sich nüchtern betrachtet für die 4 Birnen entscheiden, da wird man länger davon satt ( so sie denn mehr oder minder gleich groß sind). Die Größe wäre dann quasi das Äquivalent zur Rechenleistung ;)

Oder um mal wieder nen beliebten Autovergleich zu machen:
Dort gibts auch Benzin und Dieselmodelle. Quasi also auch Äpfel und Birnen. Trotzdem wirds verglichen und man muss abwägen ob sich für die eigene Fahrweise/Kilometer pro Jahr der Preisaufschlag aufs teurere Dieselmodell rentiert.
 
Auf alle Fälle gibt es mal wieder etwas wirklich Interessantes von AMD und man kann wohl davon Ausgehen, dass die PS4 und die Xbox 720 eine Verwandte APU/CPU mit 8 Kernen haben werden.
Die 5 bzw. 25W hören sich auch gut an in dem Zusammenhang.
Dass der Sony Event zum gleichen Tag sein wird und evt. auch schon was an Bewegten Bildern gezeigt wird sollte einige Fragen klären. Wenn diese Chips nicht sehr gut wären, dann hätten die beiden größten Konsolen Hersteller der Welt diese ausgesucht. Schon lustig dann wären die AMD Konsolen moderner als ihre Desktop und Servermodelle die es nicht in 28nm gibt.

Was die Heute teilweise aus PS3 und 360 raus holen, bei der Gammelhardware die da verbaut ist, wird wohl die neue Gernation um Welten mehr zulegen als der Wechsel von PS2 zur 3 z.B.
Zumal die Konsolen ja noch zusätzlich eine extra GPU haben. Macht 8 CPU Cores mit 2 GPU´s, selbst mit relativ wenig Takt kommt da immense Rechenpower bei raus. Bin total Gespannt wie die Werte der realen Leistung zulegen! Wir PC Spieler werden sehr von davon Profitieren, Dx11.1 als Standard sowie echter 6 und 8 Coresupport. Game.exe´n die auch wirklich 8 oder 16GB RAM nutzen usw usw. freue sehr mich drauf.

mfg
 
man kann wohl davon Ausgehen, dass die PS4 und die Xbox 720 eine Verwandte APU/CPU mit 8 Kernen haben werden.

Darüber kann man spekulieren...

Wenn diese Chips nicht sehr gut wären, dann hätten die beiden größten Konsolen Hersteller der Welt diese ausgesucht.

...sollte sich aber davor hüten, diese Spekulation dann als Bestätigung für irgendwas anzuführen. Es ist und bleibt eine Spekulation. Die logische Argumentationskette muss auch (gerade!) im Spekulationsforum lauten "wenn...dann" statt "wenn...also".

Zumal die Konsolen ja noch zusätzlich eine extra GPU haben.

Haben sollen. Auch durch millionenfaches wiederholen wird ein Gerücht nicht zum Fakt.
 
Zuletzt bearbeitet:
Die Fläche halbiert sich bei einem Full-Node, bei einem Half-Node sollte es 1/sqrt(2) sein und nicht die vierte Wurzel.

Ist aber trotzdem ist der geringe Flächenbedarf der Jaguar Cores schon enorm.
 
Die Fläche halbiert sich bei einem Full-Node, bei einem Half-Node sollte es 1/sqrt(2) sein und nicht die vierte Wurzel.
Ach Mist, DU hast recht, ich hab die linearen Faktoren genommen. Für ne Fläche muss man die dann natürlich quadrieren, also wird aus dem linearen Faktor 1 / Wurzel 2 für den Fullnode = 1/2 = 0,5 und aus 1 / die vierten Wurzel wird entsprechend 1/ die 2. Wurzel für den half node.
ZUm Glück gleicht sich dass dann aber wieder mit dem gate-last <> gate-first Faktor wieder aus, nur halt diesmal von der anderen Seite ;-)

Mit Wurzel 2 käme man auf 22 mm² in 28nm gatefirst, Laut GF hat gatelast nen Nachteil von 10-20%. Nehmen wir mal die Mitte mit 15% = Faktor 0,85, dann wären die 26,2 mm2 das Quad-Jaguars in gate first 22,27mm2. Grob gesehen bleibt das FAzit also bestehen: Ungefähr sind die beiden Module gleich groß ;-)

ich korrigiere es auch mal in der News.
 
Was für einen Account benötigt man eigentlich, um die Bildergalerie einzusehen? Ich bekomme da immer ein "Access denied". :(
 
Was für einen Account benötigt man eigentlich, um die Bildergalerie einzusehen? Ich bekomme da immer ein "Access denied". :(
Gute Frage, anscheinend ist das Album geschützt, obwohl es auf "public" steht. Keine Ahnung was das soll, aber dann bekommst Du halt die 3 Einzellinks:

<ul><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23141">Alle Präsentationsfolien in der Fotogalerie - Teil 1</a></li><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23156">Alle Präsentationsfolien in der Fotogalerie - Teil 2</a></li><li><a href="http://www.planet3dnow.de/photoplog/index.php?n=23159">Alle Präsentationsfolien in der Fotogalerie - Teil 3</a></li></ul>

Ich änders oben dann auch ab.
 
Ich sage einfach mal: Sehr interessant und ich bin gespannt, was AMD mit dieser APU Sache noch alles erreicht.

Aktuell spare ich auf ein Notebook mit AMD APU. Ob ich das Ziel noch während "Trinity" erreiche, oder ob ich dann schon die nächste Generation kaufen kann, wird sich zeigen.
 
wenn die das wirklich so hinbekommen ist das ja mal eine Hausnummer.
Mir fiele da spontan ein Zweikerner mit 1,8-2 Ghz um die 10W ein, der einen 13 Zöller souverän gut 8 Stunden befeuert. ;D
..... Und AMD könnte damit tatsächlich mal ein wenig Geld verdienen...

Mmoe
 
Zurück
Oben Unten