AMDs 45 nm Quad-Core Opteron 'Shanghai'


AMDs K10, Codename "Barcelona", stand von Beginn an unter keinem guten Stern. Obwohl man es bei AMD sicherlich gerne anders nennen würde, war der als TLB-Bug bekannt gewordene Fehler (Erratum 298) ein Desaster größten Ausmaßes. Der K10 ist somit nicht nur für verlorene Marktanteile verantwortlich zu machen, sondern auch für einen enormen Vertrauensverlust im diesbezüglich sehr sensiblen Servermarkt. Denn bekanntermaßen ist es bedeutend schwieriger einmal verlorenes Vertrauen wieder herzustellen, als ohne jegliche Basis selbiges aufzubauen.

Es ist also kein leichtes Erbe, das der in 45 nm gefertigte Nachfolger des Barcelona anzutreten hat. Wie ein Phoenix aus der Asche soll der Shanghai sich erheben und AMD zu neuen Rekordmarktanteilen und gewinnreichen Quartalen führen - das letzte ist immerhin schon 2 Jahre her. Der im Vorfeld um den Prozessor ausgelöste Hype war enorm - von 35 Prozent mehr Leistung bei 30 Prozent weniger Energiebedarf war die Rede. Genaue Informationen blieb AMD der schreibenden Zunft jedoch bis zur letzten Sekunde schuldig und erst am Vortag des offiziellen Launchs kamen die ersten Details ans Licht.

Doch worauf genau gründet sich die Hoffnung AMDs? Schließlich handelt es sich beim Shanghai um keinen nagelneuen Prozessor, sondern lediglich eine Weiterentwicklung des K10-Kerns, der wiederum eine Weiterentwicklung des K8-Kerns ist, der wiederum eine Weiterentwicklung der letzten echten Neuentwicklung aus dem Haus AMD ist, dem K7-Kern des original AMD Athlon.

AMDs größter Trumpf ist mit Sicherheit die Beibehaltung des bisherigen Sockels. Der Shanghai läuft - ein BIOS-Update vorausgesetzt - auch in jedem Barcelona-kompatiblen Sockel F Mainboard. Im Detail gibt es dennoch einige Verbesserungen, auch wenn sich diese offensichtlich darauf beschränken, dem K10 ein neues und hoffentlich besseres Gesicht zu verpassen.

[BREAK=45 nm Prozess]
Besonders hervorgehoben wird seitens AMD der neue 45 nm Prozess, wobei man hier wieder ganz besonders stolz auf den kurzen Zeitraum ist, in dem man es vom Test- zum Produktionswafer geschafft hat. Das in Zusammenarbeit mit IBM entwickelte Verfahren verspricht vor allem die Leckströme drastisch zu reduzieren. Das Immersion Lithography genannte Produktionsverfahren setzt auf neue Lithographie-Methoden, die zur Erzeugung der Strukturen auf den Siliziumwafern eingesetzt werden. Exaktere, feinere, kleinere und damit stromsparenderer und schneller schaltende Transistoren sollen sich damit abbilden lassen.







[BREAK=Mehr Leistung bei niedrigerem Stromverbrauch]
Die Aussagen über das neue 45 nm-Verfahren lassen augenscheinlich den Schluss zu, dass die Umstellung vom 90 nm auf das 65 nm-Verfahren nicht so verlaufen ist, wie sich AMD dies gewünscht hätte. Nicht umsonst wird das K8-Topmodell, der Athlon 64 X2 6400+, im 90 nm-Verfahren hergestellt. Auf der Gegenseite konnte der im 65 nm-Prozess hergestellte Barcelona die eingangs versprochenen hohen Taktfrequenzen nicht mal annähernd erreichen.



All dies soll mit dem neuen 45 nm-Verfahren der Vergangenheit angehören. Darf man AMD Glauben schenken, dann soll der 45 nm-Prozess bei 400 MHz höherer Taktfrequenz trotzdem einen 35% niedrigeren Energiebedarf im Leerlauf haben, der unter Last auf immer noch beachtliche 10% schrumpft. Die Leistung soll im gleichen Zug um bis zu 35% über der des um 400 MHz langsameren Vorgängers liegen, die Leistung pro Watt gar um 50% darüber. Ist der Shanghai also doch ein revolutionär umgearbeiteter Kern?

[BREAK=Im Kern nichts Neues: die Verbesserungen]
Um es gleich vorweg zu nehmen: Nein, ist er nicht. Der Shanghai basiert zum größten Teil auf seinem direkten Vorgänger Barcelona und verfügt immer noch über den bekannten Dreifach-Dekoder, wie er im Prinzip bereits 1999 mit dem K7 eingeführt wurde. Im eigentlichen CPU-Kern sind die Veränderungen zum Barcelona minimal – die jeweils drei Integer und Fließkomma-Pipelines erfuhren nur marginale Veränderungen, der L1-Cache ist weiterhin 2x 64 KB groß und verfügt über eine 256-Bit Anbindung zum Kern. Der L2-Cache beträgt pro Kern 512 KB.



Größerer Last Level Cache
Die erste augenscheinliche Veränderung erfuhr der L3-Cache, der um 4 MB erweitert wurde und nun 6 MB groß ist. Die Größe des L3-Caches gleicht das Problem dieser zusätzlichen Cache-Stufe aus: die erhöhte Latenz. Denn diese liegt im Vergleich zu einem System mit nur zweistufigem Cache deutlich höher, da die dritte Stufe ebenfalls abgefragt werden muss bevor auf den vergleichsweise langsamen Arbeitsspeicher zurückgegriffen wird.

Intelligenterer Prefetch-Algorithmus
Um diese Einbußen wettzumachen hat man zudem den Prefetch-Algorithmus verbessert und verspricht sich dadurch bessere Vorhersagen bezüglich der eventuell benötigten Daten. Die Assoziativität des L3-Caches wurde zudem von 32-fach auf 48-fach erhöht.

Core Probe Bandwidth erhöht
Ferner verspricht AMD durch ein Feature namens "2x Core Probe Bandwidth" eine schnellere Herstellung bzw. Wahrung der Cache-Kohärenz, da das Intervall, in dem Snoop-Signale ausgesendet werden, halbiert worden sein soll. Dies soll sowohl Multi-Sockel-, die Single-Sockel-Systemen zu Gute kommen.

[BREAK=Weitere Verbesserungen]


Rapid Virtualization Indexing
In Bezug auf Virtualisierung, die im Server-Bereich immer mehr an Bedeutung gewinnt, verspricht AMD ebenfalls eine höhere Leistung dank Rapid Virtualization Indexing und Tagged TLBs. Beides führt dazu, dass der Prozessor schneller zwischen zwei VMs mit eigenen Speicheradressen umschalten kann. Besonders auf Servern mit vielen virtualisierten Maschinen könnte der Shanghai also theoretisch punkten.



HyperTransport 3.0
Die weiteren Verbesserungen liegen im Detail – ein schnellerer HyperTransport-Link sorgt für höheren Durchsatz hin zur Infrastruktur und zu den übrigen CPUs in einer Multi-Sockel Umgebung. Allerdings kann der Shanghai bis Mitte 2009 keinen Nutzen ziehen aus diesem Feature, da die aktuellen Sockel-F-Chipsätze HT3 nicht unterstützen. Erst die bereits angekündigte Fiorano-Plattform wird dies nachholen.

DDR2-800
Obwohl der Memory-Controller des Shanghai - wie auch bereits der des Barcelona - im Prinzip mit DDR3-Speicher umgehen könnte, bleibt es - natürlich auch bedingt durch das Festhalten am Sockel F mit vorgegebener Spezifikation - bei DDR2-Speicher. Allerdings darf Shanghai nun offiziell mit DDR2-800 Modulen arbeiten, während Barcelona lediglich für DDR2-667 Speicher freigegeben war.

Datenintegrität
Ein Sicherheitsfeature namens L3 Cache Index Disable ist ebenfalls hinzu gekommen. Dieses kann einzelne Bereiche des ECC-geschützten L3-Caches bei Häufung von Fehlern deaktivieren um die Integrität der Daten zu wahren. Allerdings muss es vom Betriebssystem unterstützt werden. Mit Support für dieses Feature wird erst im Laufe des Jahres 2009 gerechnet.

Smart Fetch
Den Energiebedarf noch zusätzlich zu senken ist die Aufgabe einer Smart Fetch genannten Funktion. Diese kopiert den Inhalt des L1- und L2-Caches eines schlafenden Kerns in den von allen Kernen direkt adressierbaren L3-Cache, so dass darauf zugegriffen werden kann ohne die betreffende CPU zu wecken. Im Endeffekt spart dies Energie und somit auch Wärme.

[BREAK=Mehr Prozessor für's Geld]


Bei Shanghai verspricht AMD zum Preis des bisherigen 2356/8356 Modells mit 2,3 GHz das verbesserte 45-nm-Modell 2380/8380 mit 2,5 GHz Takt zu liefern. Noch deutlicher wird der Unterschied wenn man einen Blick in die AMD-Preisliste wagt und den Kurs des bisherigen 2,5 GHz Barcelona-Modells erblickt. Der kostete sage und schreibe 2149 US-Dollar in der 8000er Variante. Den Shanghai dagegen gibt's nun trotz besserer Leistung bei gleicher Taktfrequenz für vergleichsweise günstige 1515 US-Dollar.

Nach oben endet das Angebot an Shanghai-CPUs vorerst bei 2,7 GHz mit den Modellen 2384 und 8384.

[BREAK=Benchmarks]
Die von AMD im Rahmen der Präsentation veröffentlichten Benchmarks stellen den Shanghai logischerweise in einem sehr guten Licht dar:



Doch auch die gestern geleakten Benchmarks und die vorzeitig veröffentlichten Benchmarks von IBM sehen nicht schlecht aus für AMD. Unabhängige Tests, die ab heute sicherlich zu Hauf im Internet erscheinen werden (Nachtrag: hier gibt's alle aktuellen Benchmarks und Previews zum Shanghai), sollten endgültig Klarheit bringen wie es um die Leistung des Shanghai bestellt ist. Das Potenzial ist da.

[BREAK=Quo vadis Shanghai?]
AMDs 45 nm Quad-Core Opteron 'Shanghai'


Die Ergebnisse des Facelifts zeigen, wie viel Potenzial im K10-Kern tatsächlich steckt. Sollten die Aussagen von AMD bezüglich der Performance sich in der harten Realität tatsächlich bestätigen, dann wäre der Shanghai ein ernst zu nehmender Konkurrent für Intels Xeon. Ob das Gebotene allerdings reicht um verlorene Marktanteile durch wiedergewonnenes Vertrauen zurückzuerobern bleibt unbeantwortet. Zweifellos ist der Shanghai ein gelungenes Update einer kränkelnden Architektur. Eine Revolution, die AMD zwangsläufig nach vorne katapultieren würde, ist er definitiv nicht.

Interessant wird die Situation in Kürze auf dem Desktop, wenn der Deneb, AMDs 45 nm Shanghai-Ableger für den "Normal-User", das Licht der Welt erblickt. Die Frage, ob er sich gegen Intels Nehalem stemmen und dessen fast schon programmierten Erfolg zumindest abbremsen kann, bleibt spannend. Aber diesbezüglich werden wir unseren Lesern hier auf Planet 3DNow! von vorderster Front berichten - schon bald...

...weitere Artikel
...diesen Artikel im Forum diskutieren


Links zum Thema: