AMD Phenom II X4 Deneb — 45 nm für den Desktop

Artikel-Index:

Der Deneb im Detail — Der K10.5

Der AMD Phe­nom II “Deneb”

So war der K10 sicher kein Pro­dukt, an dem AMD ange­sichts bei­na­her Per­fek­ti­on kei­ne Angriff­punk­te gefun­den hät­te, um die Hebel der Wei­ter­ent­wick­lung anzusetzen.

Den sub­op­ti­ma­len 65 nm Her­stel­lungs­pro­zess wird der Deneb — in der Pres­se oft scherz­haft “K10.5” genannt — durch die Umstel­lung auf 45 nm Struk­tu­ren “auto­ma­tisch” los. Dabei han­delt es sich nicht um einen simp­len Shrink. AMD stell­te zusätz­lich zu den klei­ne­ren Struk­tu­ren auf das soge­nann­te Immersi­ons-Litho­gra­phie-Ver­fah­ren um. Damit soll es mög­lich sein, klei­ne Struk­tu­ren wesent­lich prä­zi­ser zu belich­ten. Zudem konn­te laut AMD auch die Anzahl an Arbeits­schrit­ten bis zum fer­ti­gen Die redu­ziert wer­den, was Kos­ten spart und die Pro­duk­ti­ons­zeit ver­kürzt. Ein high‑k Dielek­tri­kum auf Metall-Basis wie es bei Intel schon seit den Pen­ryn-Pro­zes­so­ren ver­wen­det wird, soll erst in einer spä­te­ren Aus­bau­stu­fe Ver­wen­dung finden.

Aber auch ohne Metall-Gates ver­spricht AMD einen erheb­lich nied­ri­ge­ren Strom­ver­brauch. So soll ein 2,7 GHz Deneb gegen­über einem 2,3 GHz Age­na trotz höhe­rer Takt­fre­quenz eine 35 Pro­zent nied­ri­ge­re Leis­tungs­auf­nah­me im Leer­lauf haben und selbst unter Voll­last soll er immer noch 10 Pro­zent spar­sa­mer sein — bei 400 MHz mehr Takt­fre­quenz, mehr Cache und ent­spre­chend höhe­rer Leis­tung. Aus­ge­drückt in CPU-Leis­tung pro Watt ver­spricht AMD gar eine 50-pro­zen­ti­ge Ver­bes­se­rung. Das sind gro­ße Wor­te, denen Taten fol­gen müssen.

Höhe­re Taktfrequenz

Wäh­rend beim 65 nm Phe­nom mit Age­na-Kern bei 2,6 GHz das Ende der Fah­nen­stan­ge erreicht war (Vor­stel­lung mit 2,3 GHz), kommt der 45 nm Phe­nom II Deneb vom Start weg mit 3,0 GHz auf den Markt. Daher kom­men rech­ne­risch 15 Pro­zent Mehr­leis­tung gegen­über dem bis­he­ri­gen Top­mo­dell schon allei­ne von der höhe­ren Takt­fre­quenz, die nun im Bereich der schnells­ten Intel-Pro­zes­so­ren liegt, die aktu­ell mit bis zu 3,2 GHz zu haben sind.

Grö­ße­rer Last Level Cache

Durch die klei­ne­ren Struk­tu­ren des 45 nm Pro­zes­ses hat­te AMD nun die Mög­lich­keit, den umstrit­te­nen Level 3 Cache von 2 MB auf 6 MB zu ver­grö­ßern ohne dies mit über­di­men­sio­na­ler Die-Grö­ße bezah­len zu müs­sen. Damit ver­schiebt sich das Gleich­ge­wicht “Penal­ty durch die zusätz­li­che Cache­stu­fe” vs. “Höhe­re Hitra­te durch grö­ße­ren Cache” zu Guns­ten des letz­te­ren. Zudem will AMD die Cache-Latenz des L3-Cache ver­bes­sert haben, die bis­her — gemes­sen mit CPU‑Z Laten­cy — allen­falls als mit­tel­mä­ßig zu bewer­ten war. Die Asso­zia­ti­vi­tät des L3-Caches wur­de von 32-fach auf 48-fach erhöht.

Intel­li­gen­te­rer Prefetch-Algorithmus

Wei­te­res Poten­zi­al ver­spricht sich AMD durch einen ver­bes­ser­ten Pre­fetch-Algo­rith­mus, der Daten basie­rend unter ande­rem auf den Ergeb­nis­sen der Sprung­vor­her­sa­ge auf Ver­dacht in den Cache lädt. Ob AMD wirk­lich einen intel­li­gen­te­ren Algo­rith­mus ein­setzt oder — mit dem 3 mal so gro­ßen L3-Cache im Rücken — nun ein­fach exzes­si­ver Gebrauch von Pre­fet­ching macht, sei mal dahin gestellt.

Core Pro­be Band­width erhöht

Fer­ner ver­spricht AMD durch ein Fea­ture namens “2x Core Pro­be Band­width” eine schnel­le­re Her­stel­lung bzw. Wah­rung der Cache-Kohä­renz, da das Inter­vall, in dem Snoop-Signa­le aus­ge­sen­det wer­den, hal­biert wor­den sein soll. Vor­wie­gend kommt dies dem Ser­ver-Able­ger Shang­hai in Mul­ti-Sockel-Sys­te­men zu Gute, aber laut AMD sol­len auch die Sin­gle-Sockel-Denebs davon pro­fi­tie­ren. Jeden drit­ten Takt soll der “K10.5” nun ein Pro­be-Signal aus­sen­den kön­nen gegen­über jedem sechs­ten beim ursprüng­li­chen K10.

Rapid Vir­tua­liza­ti­on Indexing

In Bezug auf Vir­tua­li­sie­rung, die im Ser­ver-Bereich immer mehr an Bedeu­tung gewinnt, ver­spricht AMD eben­falls eine höhe­re Leis­tung dank Rapid Vir­tua­liza­ti­on Index­ing und Tag­ged TLBs. Bei­des führt dazu, dass der Pro­zes­sor schnel­ler zwi­schen zwei VMs mit eige­nen Spei­cher­adres­sen umschal­ten kann. Im Desk­top-Markt sicher­lich eine zu ver­nach­läs­si­gen­de Kunst, auf Ser­vern mit vie­len vir­tua­li­sier­ten Maschi­nen jedoch ist das für den Zwil­lings­bru­der Shang­hai ein will­kom­me­nes Feature.

Smart Fetch

Den Ener­gie­be­darf noch zusätz­lich zu sen­ken ist die Auf­ga­be einer Smart Fetch genann­ten Funk­ti­on. Die­se kopiert den Inhalt des L1- und L2-Caches eines schla­fen­den Kerns in den von allen Ker­nen direkt adres­sier­ba­ren L3-Cache, so dass dar­auf zuge­grif­fen wer­den kann ohne den betref­fen­den Kern zu wecken und ihn in einen nied­ri­ge­ren P‑State zu ver­set­zen. Im End­ef­fekt spart dies Ener­gie und redu­ziert die Abwärme.

Bugs besei­tigt

Neben dem berüch­tig­ten Erra­tum 298 ali­as TLB-Bug besa­ßen die 65 nm Phe­noms noch eine Rei­he wei­te­rer “Unpäss­lich­kei­ten”, soge­nann­te Erra­ta. Im Grun­de ist das nichts unge­wöhn­li­ches — jedes kom­ple­xe Pro­dukt wie ein Pro­zes­sor mit meh­re­ren Mil­lio­nen Tran­sis­to­ren — hat Feh­ler. Selbst beim nagel­neu­en Intel Core i7 sind bereits über 70 Bugs bekannt bzw. doku­men­tiert, obwohl er erst ein paar Wochen auf dem Markt ist. Die Fra­ge ist immer nur wie schwer­wie­gend sie sind. Meist han­delt es sich dabei um Klei­nig­kei­ten, die allen­falls die BIOS-Pro­gram­mie­rer oder Com­pi­ler-Ent­wick­ler inter­es­sie­ren müs­sen. Beim 65 nm K10 jedoch (Step­ping BA, B2 und B3) waren auch Sachen dabei, die im ungüns­ti­gen Fall den End­an­wen­der tan­gie­ren konn­ten, wie etwa das Erra­tum 355 — “DRAM Read Errors May Occur at Memo­ry Speeds Hig­her than DDR2-800”. Das konn­te für End­kun­den durch­aus ärger­li­che Fol­gen haben — näm­lich, dass ein Phe­nom mit DDR2-1066 Spei­cher, für die er offi­zi­ell eine Frei­ga­be besitzt, unter Umstän­den nicht sta­bil arbei­te­te. Die­ser Feh­ler ist nun mit dem C2-Step­ping des Deneb gefixt, eben­so wie die unbrauch­ba­ren Tem­pe­ra­tur-Mes­sun­gen der inter­nen Dioden (“Inac­cu­ra­te Tem­pe­ra­tu­re Mea­su­re­ment”). Wie gesagt: in Sachen Bug­fi­xing war AMD wirk­lich gründ­lich. So wur­den tat­säch­lich alle Bugs der bis­he­ri­gen K10-Pro­zes­so­ren gefixt, die nicht mit “no fix pla­ned” gekenn­zeich­net waren.

Natür­lich sind auch ein paar neue Bugs hin­zu gekom­men. Eini­ge davon wur­den erst jetzt ent­deckt, wel­che die gesam­te K10-Rei­he betref­fen (Step­ping BA, B2, B3, C2), eini­ge dage­gen betref­fen nur den Shang­hai bzw. Deneb. Ein paar Sachen sind dabei — z.B. “DRAM May Fail Trai­ning on Cold Reset” — wel­che End­kun­den gele­gent­lich über den Weg lau­fen könn­ten, eini­ge wer­den in der Pra­xis nie­mals auf­tre­ten — z.B. “Sys­tem May Hang if Core Fre­quen­cy is Even Divi­sor of North­bridge Clock” — solan­ge AMD kei­ne Pro­zes­so­ren her­stellt, bei denen das der Fall ist. Rele­vant könn­te es höchs­tens für (Northbridge-)Übertakter oder (Kern-)Untertakter wer­den, wenn sie Kern­fre­quenz und North­bridge-/L3-Takt zufäl­lig auf die sel­be Fre­quenz setzen.

Leis­tungs­ver­spre­chen

Dass eine Dra­gon-Platt­form gemäß Gerüch­te­kü­che um bis zu 30 Pro­zent schnel­ler sein soll als eine Spi­der hat­ten wir berich­tet. Seit den Dra­gon Tech Days, bei denen wir vor Ort in Austin/Texas waren, ist auch bekannt wor­aus genau die­se Ver­bes­se­run­gen resul­tie­ren — zumin­dest laut AMD:

  • Etwa 3% kom­men durch Ver­bes­se­run­gen der IPC zu Stan­de. Die­se kom­men haupt­säch­lich durch Ver­bes­se­run­gen der Branch Pre­dic­tion, des TLB und der Pipeline.
  • Etwa 10% beträgt der Unter­schied durch die höhe­re Taktfrequenz
  • Etwa 10% durch den grö­ße­ren L3-Cache
  • Und zuletzt noch mal etwa 5% durch den Umstieg von DDR2 auf DDR3-Spei­cher — das kommt aller­dings erst in ein paar Monaten.