AMD Phenom II X4 Deneb — 45 nm für den Desktop
Der Deneb im Detail — Der K10.5
Der AMD Phenom II “Deneb”
So war der K10 sicher kein Produkt, an dem AMD angesichts beinaher Perfektion keine Angriffpunkte gefunden hätte, um die Hebel der Weiterentwicklung anzusetzen.
Den suboptimalen 65 nm Herstellungsprozess wird der Deneb — in der Presse oft scherzhaft “K10.5” genannt — durch die Umstellung auf 45 nm Strukturen “automatisch” los. Dabei handelt es sich nicht um einen simplen Shrink. AMD stellte zusätzlich zu den kleineren Strukturen auf das sogenannte Immersions-Lithographie-Verfahren um. Damit soll es möglich sein, kleine Strukturen wesentlich präziser zu belichten. Zudem konnte laut AMD auch die Anzahl an Arbeitsschritten bis zum fertigen Die reduziert werden, was Kosten spart und die Produktionszeit verkürzt. Ein high‑k Dielektrikum auf Metall-Basis wie es bei Intel schon seit den Penryn-Prozessoren verwendet wird, soll erst in einer späteren Ausbaustufe Verwendung finden.
Aber auch ohne Metall-Gates verspricht AMD einen erheblich niedrigeren Stromverbrauch. So soll ein 2,7 GHz Deneb gegenüber einem 2,3 GHz Agena trotz höherer Taktfrequenz eine 35 Prozent niedrigere Leistungsaufnahme im Leerlauf haben und selbst unter Volllast soll er immer noch 10 Prozent sparsamer sein — bei 400 MHz mehr Taktfrequenz, mehr Cache und entsprechend höherer Leistung. Ausgedrückt in CPU-Leistung pro Watt verspricht AMD gar eine 50-prozentige Verbesserung. Das sind große Worte, denen Taten folgen müssen.
Höhere Taktfrequenz
Während beim 65 nm Phenom mit Agena-Kern bei 2,6 GHz das Ende der Fahnenstange erreicht war (Vorstellung mit 2,3 GHz), kommt der 45 nm Phenom II Deneb vom Start weg mit 3,0 GHz auf den Markt. Daher kommen rechnerisch 15 Prozent Mehrleistung gegenüber dem bisherigen Topmodell schon alleine von der höheren Taktfrequenz, die nun im Bereich der schnellsten Intel-Prozessoren liegt, die aktuell mit bis zu 3,2 GHz zu haben sind.
Größerer Last Level Cache
Durch die kleineren Strukturen des 45 nm Prozesses hatte AMD nun die Möglichkeit, den umstrittenen Level 3 Cache von 2 MB auf 6 MB zu vergrößern ohne dies mit überdimensionaler Die-Größe bezahlen zu müssen. Damit verschiebt sich das Gleichgewicht “Penalty durch die zusätzliche Cachestufe” vs. “Höhere Hitrate durch größeren Cache” zu Gunsten des letzteren. Zudem will AMD die Cache-Latenz des L3-Cache verbessert haben, die bisher — gemessen mit CPU‑Z Latency — allenfalls als mittelmäßig zu bewerten war. Die Assoziativität des L3-Caches wurde von 32-fach auf 48-fach erhöht.
Intelligenterer Prefetch-Algorithmus
Weiteres Potenzial verspricht sich AMD durch einen verbesserten Prefetch-Algorithmus, der Daten basierend unter anderem auf den Ergebnissen der Sprungvorhersage auf Verdacht in den Cache lädt. Ob AMD wirklich einen intelligenteren Algorithmus einsetzt oder — mit dem 3 mal so großen L3-Cache im Rücken — nun einfach exzessiver Gebrauch von Prefetching macht, sei mal dahin gestellt.
Core Probe Bandwidth erhöht
Ferner verspricht AMD durch ein Feature namens “2x Core Probe Bandwidth” eine schnellere Herstellung bzw. Wahrung der Cache-Kohärenz, da das Intervall, in dem Snoop-Signale ausgesendet werden, halbiert worden sein soll. Vorwiegend kommt dies dem Server-Ableger Shanghai in Multi-Sockel-Systemen zu Gute, aber laut AMD sollen auch die Single-Sockel-Denebs davon profitieren. Jeden dritten Takt soll der “K10.5” nun ein Probe-Signal aussenden können gegenüber jedem sechsten beim ursprünglichen K10.
Rapid Virtualization Indexing
In Bezug auf Virtualisierung, die im Server-Bereich immer mehr an Bedeutung gewinnt, verspricht AMD ebenfalls eine höhere Leistung dank Rapid Virtualization Indexing und Tagged TLBs. Beides führt dazu, dass der Prozessor schneller zwischen zwei VMs mit eigenen Speicheradressen umschalten kann. Im Desktop-Markt sicherlich eine zu vernachlässigende Kunst, auf Servern mit vielen virtualisierten Maschinen jedoch ist das für den Zwillingsbruder Shanghai ein willkommenes Feature.
Smart Fetch
Den Energiebedarf noch zusätzlich zu senken ist die Aufgabe einer Smart Fetch genannten Funktion. Diese kopiert den Inhalt des L1- und L2-Caches eines schlafenden Kerns in den von allen Kernen direkt adressierbaren L3-Cache, so dass darauf zugegriffen werden kann ohne den betreffenden Kern zu wecken und ihn in einen niedrigeren P‑State zu versetzen. Im Endeffekt spart dies Energie und reduziert die Abwärme.
Bugs beseitigt
Neben dem berüchtigten Erratum 298 alias TLB-Bug besaßen die 65 nm Phenoms noch eine Reihe weiterer “Unpässlichkeiten”, sogenannte Errata. Im Grunde ist das nichts ungewöhnliches — jedes komplexe Produkt wie ein Prozessor mit mehreren Millionen Transistoren — hat Fehler. Selbst beim nagelneuen Intel Core i7 sind bereits über 70 Bugs bekannt bzw. dokumentiert, obwohl er erst ein paar Wochen auf dem Markt ist. Die Frage ist immer nur wie schwerwiegend sie sind. Meist handelt es sich dabei um Kleinigkeiten, die allenfalls die BIOS-Programmierer oder Compiler-Entwickler interessieren müssen. Beim 65 nm K10 jedoch (Stepping BA, B2 und B3) waren auch Sachen dabei, die im ungünstigen Fall den Endanwender tangieren konnten, wie etwa das Erratum 355 — “DRAM Read Errors May Occur at Memory Speeds Higher than DDR2-800”. Das konnte für Endkunden durchaus ärgerliche Folgen haben — nämlich, dass ein Phenom mit DDR2-1066 Speicher, für die er offiziell eine Freigabe besitzt, unter Umständen nicht stabil arbeitete. Dieser Fehler ist nun mit dem C2-Stepping des Deneb gefixt, ebenso wie die unbrauchbaren Temperatur-Messungen der internen Dioden (“Inaccurate Temperature Measurement”). Wie gesagt: in Sachen Bugfixing war AMD wirklich gründlich. So wurden tatsächlich alle Bugs der bisherigen K10-Prozessoren gefixt, die nicht mit “no fix planed” gekennzeichnet waren.

Natürlich sind auch ein paar neue Bugs hinzu gekommen. Einige davon wurden erst jetzt entdeckt, welche die gesamte K10-Reihe betreffen (Stepping BA, B2, B3, C2), einige dagegen betreffen nur den Shanghai bzw. Deneb. Ein paar Sachen sind dabei — z.B. “DRAM May Fail Training on Cold Reset” — welche Endkunden gelegentlich über den Weg laufen könnten, einige werden in der Praxis niemals auftreten — z.B. “System May Hang if Core Frequency is Even Divisor of Northbridge Clock” — solange AMD keine Prozessoren herstellt, bei denen das der Fall ist. Relevant könnte es höchstens für (Northbridge-)Übertakter oder (Kern-)Untertakter werden, wenn sie Kernfrequenz und Northbridge-/L3-Takt zufällig auf die selbe Frequenz setzen.
Leistungsversprechen
Dass eine Dragon-Plattform gemäß Gerüchteküche um bis zu 30 Prozent schneller sein soll als eine Spider hatten wir berichtet. Seit den Dragon Tech Days, bei denen wir vor Ort in Austin/Texas waren, ist auch bekannt woraus genau diese Verbesserungen resultieren — zumindest laut AMD:
- Etwa 3% kommen durch Verbesserungen der IPC zu Stande. Diese kommen hauptsächlich durch Verbesserungen der Branch Prediction, des TLB und der Pipeline.
- Etwa 10% beträgt der Unterschied durch die höhere Taktfrequenz
- Etwa 10% durch den größeren L3-Cache
- Und zuletzt noch mal etwa 5% durch den Umstieg von DDR2 auf DDR3-Speicher — das kommt allerdings erst in ein paar Monaten.