Kommende Quad- und Octo-Core CPUs wieder mit mehr Cache

Nero24

Administrator
Teammitglied
Mitglied seit
01.07.2000
Beiträge
24.066
Renomée
10.446
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2021
Als AMD den Athlon 64 Ende 2003 <a href="http://www.planet3dnow.de/artikel/hardware/a64/index.shtml">einführte</a>, besaßen die beiden einzigen CPUs dieser Serie, der AMD Athlon 64 FX-51 und der AMD Athlon 64 3200+, 1 MB Level 2 Cache. In einer späteren Version des 3200+ wurde der Cache bereits auf 512 KB gekappt, dafür durfte der Kern 200 MHz höher "drehen". Bei der Umstellung auf 90 nm Strukturen fuhr AMD zweigleisig. Sowohl Versionen mit 512 KB Level 2 Cache (je Kern), als auch welche mit 1 MB waren verfügbar und markierten jeweils unterschiedliche Modelle, z.B. AMD Athlon 64 X2 5000+ (2x 512 KB Cache) und AMD Athlon 64 X2 5200+ (2x 1024 KB Cache) bei ansonsten gleichen Eckdaten.

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=1121"><img src="http://www.planet3dnow.de/photoplog/file.php?n=1121&w=l" alt=""></A></center>

Bei der Umstellung auf 65 nm Prozessoren hat AMD den Pfad der 1 MB L2-Caches aufgegeben. Alle aktuellen 65 nm Prozessoren einschließlich des neuen Phenom besitzen lediglich 512 KB L2-Cache. Mit einem Blick auf die <a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=327245&garpg=4#content_start">gestern veröffentlichte Roadmap</a> wird das mittelfristig allerdings wieder anders werden. Noch nicht beim "Shanghai" Mitte/Ende 2008, dessen Kerne im Wesentlichen ein Shrink auf 45 nm Strukturen werden, garniert mit 6 MB Level 3 Cache (statt derzeit 2 MB beim "Barcelona"), aber bei der zweiten Generation der AMD 45 nm Prozessoren ab 2009. Hier soll der Montreal (die AMD Workstation- und Server-CPUs sind ja nach Austragungsorten von Formel 1 Rennen benannt, wo AMD als Ferrari-Technologiepartner involviert ist) wieder mit 1 MB Level 2 Cache je Kern aufwarten können, dazu mit 6 bis 12 MB Level 3 Cache, DDR3-Support und bis zu 8 Kernen je CPU.

<b>Links zum Thema:</b><ul><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1197632347">AMD Financial Analyst Day 2007 Präsentationen</a></li></ul>
 
Interessant finde ich, dass AMD beim Shanghai auf den Folien explizit von "IPC Enhancements" spricht.
Da frage ich mich ob sie das nur durch den größeren L3-Cache erreichen wollen oder ob sie da doch noch mehr am Core feilen werden.
Denn auch beim Montreal gibt es wieder mehr L3-Cache - hier ist aber von "IPC Enhancements" nicht die Rede.
 
oder ob sie da doch noch mehr am Core feilen werden.
Es würde mich schockieren, wenn sie nicht permanent am Core feilen würden ;) Der Athlon 64 X2 5000+ im G2-Stepping ist ja auch ein wenig schneller, als die gleiche CPU im G1-Stepping :) Aber denke nicht, dass sich Barcelona und Shanghai ansonsten dramatisch unterscheiden werden (bis auf den Shrink natürlich).
 
Interessant finde ich, dass AMD beim Shanghai auf den Folien explizit von "IPC Enhancements" spricht.
Da frage ich mich ob sie das nur durch den größeren L3-Cache erreichen wollen oder ob sie da doch noch mehr am Core feilen werden.
Denn auch beim Montreal gibt es wieder mehr L3-Cache - hier ist aber von "IPC Enhancements" nicht die Rede.

Kannst du mir verraten, was IPC mit irgendeinem Cache zu tun haben soll?...genau: GAR NICHTS! ^^
Entweder arbeitet die CPU eine bestimmte Operation in 32Taktzyklen ab und schiebt sie in den Cache oder er arbeitet sie in 40Taktzyken ab und schiebt sie in den Cache...dem Cache ist es weißgott egal, wann er gefüllt wird.

edit: Ok, geistiger Schnellschuss - natürlich kann man die Schaltvorgänge des Caches auch verringern...aber ich denke, du/ihr versteht, was ich meine ;) Der Cache ist "eher" irrelevant beim IPC
 
Interessant finde ich, dass AMD beim Shanghai auf den Folien explizit von "IPC Enhancements" spricht.
Da frage ich mich ob sie das nur durch den größeren L3-Cache erreichen wollen oder ob sie da doch noch mehr am Core feilen werden.
Denn auch beim Montreal gibt es wieder mehr L3-Cache - hier ist aber von "IPC Enhancements" nicht die Rede.
Das könnte wirklich hauptsächlich der Cache sein. Die 12MB beim Montreal ergeben sich aus den 8 Cores, werden wohl (sinnvollerweise) einfach zwei zusammengeklatschte Quads sein.

@p4z1f1st: Doch, mit mehr Cache ist die CPU in Benchmarks bei gleichem Takt etwas besser. Für so eine Folie reicht das, was nach außen hin wirkt. Daß man das im einzelnen technisch total zerpflücken kann, ist klar, aber darüber könnt Ihr ja gerne 50 Seiten diskutieren, ist ja noch genug Zeit bis die Dinger da sind.
 
Gut, warte ich noch solange ;D
Wenn ich mir Q2 2008 einen Phenom kaufen würde, und ein gutes Jahr später
kommt eine Version mit höherem Takt und größerem Cache heraus, dann würde
ich mich nur ärgern.
Und bis dahin sollte AMD ja wohl auch die Steppings im Griff haben.
Mein 3800X2-Rechner mit 3 GB Speicher und 256 MB 7600GS
tuts solange noch.
 
Kannst du mir verraten, was IPC mit irgendeinem Cache zu tun haben soll?...genau: GAR NICHTS! ^^
Aber genau das ist was was Intel mit seinen Monstercaches macht.
Nicht an der CPU feilen sonder schön brav billiges SRAM dazuklatschen, denn die Recheneinheiten sind so und so immer unterfordert und brauchen den cache als Datenlieferant.

lg
__tom
 
Der Cache ist "eher" irrelevant beim IPC
Das kommt darauf an ob man den Kern alleine oder die CPU als Gesamtes betrachtet. IPC heißt ja "Instructions-per-Clockcycle" und beziffert die Effizienz eines Prozessors/Kerns. Mehr oder schnellerer Cache kann den IPC des Prozessors sehr wohl steigern, weil er seltener auf Daten aus dem langsamen RAM warten muss bzw. die Daten in kürzerer Wartezeit geliefert bekommt. Weniger Wartezeit heißt mehr Arbeit kann in der selben Zeit erledigt werden, ergo ein höherer IPC.

Wenn Du nur die Effizienz der Rechen-Einheiten betrachten willst, spielt der Cache natürlich keine Rolle. Aber das ist eher unüblich, da der Cache heute zum Gesamtkonzept einer CPU gehört. Versuch mal mit einer aktuellen CPU mit deaktivieren Caches (also ohne L1 und L2) Windows zu booten. Ich hab's vor einigen Jahren mal mit einem Duron probiert spaßeshalber und es nicht geschafft *chatt*
 
@ Nero24:
Ja wenn AMD gar nicht am Core feil würde mich das auch schockieren, ich dachte da allerdings eher an noch relevantere Änderungen.


Allerdings denke ich wird hier OBrian sehr richtig liegen:

Zum einen, dass beim Montreal der verdoppelte Cache mit der verdoppelten Corezahl zusammenspielt - was darauf hindeutet dass mit "IPC Enhancement" beim Shanghai tatsächlich der Cache gemeint sein wird.
Zum anderen, dass auch geringe Erhöhung des IPC dem Unternehmen genügt um es auf Folien für die Analysten zur Geltung zu bringen.

P.S.: Gibt es dann wenn AMD einmal alle Formel1-Rennstrecken durch hat auch irgendwann eine AMD-CPU-Linie die Schumacher-S heisst? *buck*
 
versteh das eh nicht wieso auf L2-cache verzichtet wird. na gut, er kann etwas schneller getaktet werden. intel machts aber genau umgedreht und deren prozis gehen ab wie die seuche.

wissen doch alle seit dem duron, wie arg der kleine cacheunterschied reinhaut. wenig cache = billig image -.- wenn man sieht das sogar die supermärkte mit dem L2 cache werben...
 
Wird bei dem Shanghai Stepping auch die SSE4a Einheit auf SSE4 umgestellt? Dies wäre auch ein Punkt, der die "IPC Enhancements" erklären könnte. Oder ist diese Erweiterung bzw. Umstellung für einen späteren Zeitpunkt vorgesehen?

Gruß
Das_Hirn
 
Wird bei dem Shanghai Stepping auch die SSE4a Einheit auf SSE4 umgestellt? Dies wäre auch ein Punkt, der die "IPC Enhancements" erklären könnte. Oder ist diese Erweiterung bzw. Umstellung für einen späteren Zeitpunkt vorgesehen?

Gruß
Das_Hirn

Wieso sollte das SSE4a auf SSE4 "zurückgeschraubt" werden?

Afaik beinhaltet SSE4a mehr Instruktionen als SSE4
 
Wieso sollte das SSE4a auf SSE4 "zurückgeschraubt" werden?

Afaik beinhaltet SSE4a mehr Instruktionen als SSE4

SSE4a ist nicht befehlskompatibel zu Intels SSE4. Auch wenn es sich so anhört. Ist wohl ein Marketingtrick von AMD ;).

Vielmehr ist es eine kleine Erweiterung des SSE3-Befehlsatzes. Weiß es nicht genau, aber ich glaube es sind vier zusätzliche Befehle gegenüber SSE3.

Gruß

Rangoon
 
versteh das eh nicht wieso auf L2-cache verzichtet wird.
Weil man mehr CPUs ausm Wafer schnitzen kann und weniger defekte Cores hat, ergo höhere Ausbeute.

wissen doch alle seit dem duron, wie arg der kleine cacheunterschied reinhaut. wenig cache = billig image -.- wenn man sieht das sogar die supermärkte mit dem L2 cache werben...

Wir wissen aber auch, dass der Duron nen extrem kleinen Cache hatte und es irgendwo ein Optimum gibt bei der Cachegröße, welches von der CPU-Architektur abhängt. L2-Caches über 512 kByte bringen spätestens ab dem Athlon 64 dank der exklusiven Cacheverwaltung und des schnellen Speicherbusses keine nennenswerten Leistungsgewinne mehr. Es ist da einfach effizienter, nur eine CPU zu produzieren und eben je nach Modell die 3% Mehrleistung durch 100 MHz höheren Takt zu realisieren. Bei Intel isses anders, da ist der FSB ein Flaschenhals und mehr L2-Cache hilft, ihn zu umgehen.

LG Jesse
 
Es würde mich schockieren, wenn sie nicht permanent am Core feilen würden ;) Der Athlon 64 X2 5000+ im G2-Stepping ist ja auch ein wenig schneller, als die gleiche CPU im G1-Stepping ...
Im Prinzip hat AMD von der IPC her seit dem K7 wenig am Core getan. Das einzige was vom K8 zum K10 nenneswert schneller wurde sind die SSE-Instruktionen; bei allem anderen hat sich wenig getan. Wenn man das mal vergleicht mit dem was Intel vom P3 zum C2D getan hat ist das sehr wenig.
.
EDIT :
.

Wir wissen aber auch, dass der Duron nen extrem kleinen Cache hatte und es irgendwo ein Optimum gibt bei der Cachegröße, welches von der CPU-Architektur abhängt.
Ne, das hängt vom Working-Set der jeweiligen Rechenaufgabe ab.
L2-Caches über 512 kByte bringen spätestens ab dem Athlon 64 dank der exklusiven Cacheverwaltung und des schnellen Speicherbusses keine nennenswerten Leistungsgewinne mehr.
Das ist Quatsch. Der exklusive Cache erleichtert die unteren Cache-Ebenen um 64kB (und leider bringt er auch ein Write-Back von nicht modifizierten Cachezeilen mit sich) und die Speicheranbindung ist bzgl Latenz kaum von aktuellen C2D-Systemen entfernt und der Durchsatz ist auch nicht deutlich höher.
Es ist da einfach effizienter, nur eine CPU zu produzieren und eben je nach Modell die 3% Mehrleistung durch 100 MHz höheren Takt zu realisieren. Bei Intel isses anders, da ist der FSB ein Flaschenhals und mehr L2-Cache hilft, ihn zu umgehen.
Der FSB ist bei 1-CPU-Systemen kein Flaschenhals (auch nicht bei zwei Dies ?* zwei Cores).
 
Im Prinzip hat AMD von der IPC her seit dem K7 wenig am Core getan. Das einzige was vom K8 zum K10 nenneswert schneller wurde sind die SSE-Instruktionen; bei allem anderen hat sich wenig getan. Wenn man das mal vergleicht mit dem was Intel vom P3 zum C2D getan hat ist das sehr wenig.
Naja AMD hat nicht so wenig gemacht am Core, allerdings brachten die Veränderungen eben nicht dieselben Leistungssprünge wie bei Intel. Man darf nicht vergessen, dass Intel inzwischen 4fach superskalar rechnet und bald auch wieder HT mitbringt.
Ich sehe beim IPC den Cache auch außen vor. IPC ist für mich ein rein theorethischer Wert, der sich unter optimalen bzw rein theorethischen Umständen ergibt. Deshalb sehe ich Caches bei IPC Enhancement auch außen vor.
Ich hoffe auf Verbesserungen an ALU oder FPU.
 
Zuletzt bearbeitet:
Ihr müsst in diesem Fall auch etwas aus der "relativen" Betrachtungsweise raus und real betrachten: Der P4 war IPC-mäßig einfach eine Krücke...der K7 hingegen nicht. Der Sprung von P4-IPC auf Core(2)-IPC wirkt natürlich entsprechend "gigantischer" als die kleinen Sprünge von K7 auf K8, dann die kleinen Spielereien am K8 und dann von K8 auf K10.

Nichtsdestotrotz (wow...Firefox sagt mir, dass dieses Wort zusammengeschrieben korrekt ist *buck*) ist es natürlich nicht gut zu heißen, dass AMD hier "eher" schläft, als Intel (was die sich gar nicht hätten leisten können...ich erinnere da an den PentiumD...außer Spiegeleier braten, könnte der nichts...)
 
Ihr müsst in diesem Fall auch etwas aus der "relativen" Betrachtungsweise raus und real betrachten: Der P4 war IPC-mäßig einfach eine Krücke...der K7 hingegen nicht. Der Sprung von P4-IPC auf Core(2)-IPC wirkt natürlich entsprechend "gigantischer" als die kleinen Sprünge von K7 auf K8, dann die kleinen Spielereien am K8 und dann von K8 auf K10.
Er hat allerdings vom P3 gesprochen, nicht vom P4.
 
Das Problem ist natürlich, dass man keinen P3 @ 2GHz zur Hand hat, um die Fortschritte der IPC richtig beurteilen zu können. Einen Vergleichstest P3 und C2D hab ich jetzt auch noch nicht gesehn. Daher wirkt der Unterschied auch durch den Taktunterschied gewaltig. Aber es dürfte dennoch ein deutlicher Sprung sein. Wobei ja auch der K10 teilweise 20% schneller ist als der K8.
Edit1: Was natürlich immer noch im Raum steht, ist in wieweit noch Leistung durch ungenutzte Fähigkeiten bsw. SSE4.1 Befehle schlummert.
 
Zuletzt bearbeitet:
Was man will und was man kriegt sind zwei Paar Schuhe! Auf www.techreport.com darf man ja ein ganzes Orchestra Zukunftsmusik bewundern, doch alle Neuerungen, die vielversprechend klingen (auf dem Papier), sind frühestens Ende 2008 zu erwarten. Und wir sollten uns vergegenwärtigen wie viel AMD vor Einführung des Barcelona versprochen hat und wie schnell AMD binnen eines halben Jahres quasi aus dem High-End Bereich herausgeschleudert war. Wenn ein Unternehmen den Consumer-Markt mit CPUs bedient, denen selbst kritische Augen aus reiner Sympathie erst dann Schwächen hinsichtlich des zu kleinen 2nd Level Caches bescheinigen - wie will dann ein solches Unternehmen in der jetzigen finanziellen Situation große Sprünge in Richtung 8-Kerne machen? Das sind Träume! In 12 Monaten passiert viel, es müssen Investoren her und ich befürchte, die zuletzt mit 'Barcelona' getätigte Hinhaltetaktik wird Früchte der bitteren Sorte tragen. Und nebenbei, die Konkurrenz pennt nicht! Im Servermarkt kommt SUN erst mal mit dem T2, der heute schon 8 Kerne hat und angeblich mit überragender Fließkommaleistung aufwartet, im zweiten Halbjahr 2008 wird es diese CPU auch im Doppelsockel und vielleicht Vier-Sockel-System geben. Gegen diese Macht muß AMD ersteinmal anstinken können! Wenn die Offenlegung der CPU-Specs dann auch noch die Entwicklung freier Betriebssysteme beschleunigt, könnte das für den wissenschaftlichen Sektor endlich eine Alternative zum Intel-/AMD-Mist werden.
 
SUN Server mit SPARC sind keine oder kaum Konkurrenz zu x86 Servern.
Andere Architektur andere Software. Es gibt vieles nicht für SPARC.
z.B.: Windows Server kann ich nicht auf ner SPARC Maschine betreiben.

Außerdem spielen die SUN Server in einer anderen Preisliga und konkurrieren dort eher mit den Power Maschinen unter AIX mit IBM.

lg
__tom
 
... z.B.: Windows Server kann ich nicht auf ner SPARC Maschine betreiben. ...
Bei solch einer Kundenfrage rollen sich die Sun-Verkaufsleute auf dem Teppich vor Lachen.

Für derartiges ist die x86-64-Welt bei Sun da.

Wer hingegen Linux betreibt, der kann durchaus auch die Nigara 1 und Niagara 2 für sich nutzen (Ubuntu).

Damit es zwischen den Server-Welten läuft hat Sun seit Jahren Abkommen mit Microsoft, seit kurzem mit Novell und seit wenigen Monaten mit IBM und Dell. IBM will sogar deren Solaris auf IBM-Hardware auf Kundenwunsch verkaufen. So abgeschottet ist die Serverwelt gar nicht mehr.

MFG Bobo(2007)
 
Für derartiges ist die x86-64-Welt bei Sun da.
Schrieb ich was anderes?

Abgeschottet ist die Serverwelt insofern, als das nicht jede Software auf jeden Prozessor läuft :]

Den T1 kann man für "normale" Anwendungen übrigens vergessen, er ist zu lahm insbesonderes was die FPU angeht.

lg
__tom
 
Schrieb ich was anderes? ...
Na mal schauen ->
SUN Server mit SPARC sind keine oder kaum Konkurrenz zu x86 Servern
War AMD mit dem ersten K8 im Serverbereich eine echte Bereicherung, auch wegen der guten Serverleistung für Daten/Internet-Traffic, so legte die Konkurrenz die Jahre über kontinuierlich nach.

AMDs Dual-Core kam da rechtzeitig und legte allerorten vor allem im Serverbereich nach.

Den T1 kann man für "normale" Anwendungen übrigens vergessen, er ist zu lahm insbesonderes was die FPU angeht.
Wir reden vom Jahr 2007 (Ende) und Anfang 2008.

Für schlichte Internet-Server mit multiplen Traffic ist der UltraSPARC T1 nach wie vor eine eigene Klasse für sich. Solange nicht Kryptologie eine Rolle spielt, ist eine FPU im Serverbereich nachrangig.

Natürlich ist x86 eine Konkurrenz in diesem Bereich. Die Vorzüge von x86 waren die geringen Hardware-Einstandskosten. AMD wollte dort aber auch aufschliessen in höheren Preisbereichen.

Anders gesagt, AMD ist vergleichsweise "spät" mit ihren Quadcore dran und überzeugt weniger durch Rechenstärke, als durch einfache Nachrüstbarkeit der bestehenden Infrastruktur.

Wenn du dich bei United Internet (1&1, GMX, Web.de) und Co reinschaust, dann hat dort Sun seine SPARC-"Burg" halten können, ja kann sie sogar wieder ausbauen mit der Niagara-Familie ... das war zum Start der ersten AMD-Dualcores noch etwas anders ... Und das hat was mit Konkurrenz zu tun ...

MFG Bobo(2007)
 
Zurück
Oben Unten