AMD Phenom II X4 Deneb 45 nm f체r den Desktop

Artikel-Index:

Der Deneb im Detail Der K10.5

Der AMD Phe짯nom II 쏡eneb

So war der K10 sicher kein Pro짯dukt, an dem AMD ange짯sichts bei짯na짯her Per짯fek짯ti짯on kei짯ne Angriff짯punk짯te gefun짯den h채t짯te, um die Hebel der Wei짯ter짯ent짯wick짯lung anzusetzen.

Den sub짯op짯ti짯ma짯len 65 nm Her짯stel짯lungs짯pro짯zess wird der Deneb in der Pres짯se oft scherz짯haft K10.5 genannt durch die Umstel짯lung auf 45 nm Struk짯tu짯ren 쏿uto짯ma짯tisch los. Dabei han짯delt es sich nicht um einen simp짯len Shrink. AMD stell짯te zus채tz짯lich zu den klei짯ne짯ren Struk짯tu짯ren auf das soge짯nann짯te Immersi짯ons-Litho짯gra짯phie-Ver짯fah짯ren um. Damit soll es m철g짯lich sein, klei짯ne Struk짯tu짯ren wesent짯lich pr채짯zi짯ser zu belich짯ten. Zudem konn짯te laut AMD auch die Anzahl an Arbeits짯schrit짯ten bis zum fer짯ti짯gen Die redu짯ziert wer짯den, was Kos짯ten spart und die Pro짯duk짯ti짯ons짯zeit ver짯k체rzt. Ein high멾 Dielek짯tri짯kum auf Metall-Basis wie es bei Intel schon seit den Pen짯ryn-Pro짯zes짯so짯ren ver짯wen짯det wird, soll erst in einer sp채짯te짯ren Aus짯bau짯stu짯fe Ver짯wen짯dung finden.

Aber auch ohne Metall-Gates ver짯spricht AMD einen erheb짯lich nied짯ri짯ge짯ren Strom짯ver짯brauch. So soll ein 2,7 GHz Deneb gegen짯체ber einem 2,3 GHz Age짯na trotz h철he짯rer Takt짯fre짯quenz eine 35 Pro짯zent nied짯ri짯ge짯re Leis짯tungs짯auf짯nah짯me im Leer짯lauf haben und selbst unter Voll짯last soll er immer noch 10 Pro짯zent spar짯sa짯mer sein bei 400 MHz mehr Takt짯fre짯quenz, mehr Cache und ent짯spre짯chend h철he짯rer Leis짯tung. Aus짯ge짯dr체ckt in CPU-Leis짯tung pro Watt ver짯spricht AMD gar eine 50-pro짯zen짯ti짯ge Ver짯bes짯se짯rung. Das sind gro짯횩e Wor짯te, denen Taten fol짯gen m체ssen.

H철he짯re Taktfrequenz

W채h짯rend beim 65 nm Phe짯nom mit Age짯na-Kern bei 2,6 GHz das Ende der Fah짯nen짯stan짯ge erreicht war (Vor짯stel짯lung mit 2,3 GHz), kommt der 45 nm Phe짯nom II Deneb vom Start weg mit 3,0 GHz auf den Markt. Daher kom짯men rech짯ne짯risch 15 Pro짯zent Mehr짯leis짯tung gegen짯체ber dem bis짯he짯ri짯gen Top짯mo짯dell schon allei짯ne von der h철he짯ren Takt짯fre짯quenz, die nun im Bereich der schnells짯ten Intel-Pro짯zes짯so짯ren liegt, die aktu짯ell mit bis zu 3,2 GHz zu haben sind.

Gr철짯횩e짯rer Last Level Cache

Durch die klei짯ne짯ren Struk짯tu짯ren des 45 nm Pro짯zes짯ses hat짯te AMD nun die M철g짯lich짯keit, den umstrit짯te짯nen Level 3 Cache von 2 MB auf 6 MB zu ver짯gr철짯횩ern ohne dies mit 체ber짯di짯men짯sio짯na짯ler Die-Gr철짯횩e bezah짯len zu m체s짯sen. Damit ver짯schiebt sich das Gleich짯ge짯wicht 쏱enal짯ty durch die zus채tz짯li짯che Cache짯stu짯fe vs. 쏦철he짯re Hitra짯te durch gr철짯횩e짯ren Cache zu Guns짯ten des letz짯te짯ren. Zudem will AMD die Cache-Latenz des L3-Cache ver짯bes짯sert haben, die bis짯her gemes짯sen mit CPU멯 Laten짯cy allen짯falls als mit짯tel짯m채짯횩ig zu bewer짯ten war. Die Asso짯zia짯ti짯vi짯t채t des L3-Caches wur짯de von 32-fach auf 48-fach erh철ht.

Intel짯li짯gen짯te짯rer Prefetch-Algorithmus

Wei짯te짯res Poten짯zi짯al ver짯spricht sich AMD durch einen ver짯bes짯ser짯ten Pre짯fetch-Algo짯rith짯mus, der Daten basie짯rend unter ande짯rem auf den Ergeb짯nis짯sen der Sprung짯vor짯her짯sa짯ge auf Ver짯dacht in den Cache l채dt. Ob AMD wirk짯lich einen intel짯li짯gen짯te짯ren Algo짯rith짯mus ein짯setzt oder mit dem 3 mal so gro짯횩en L3-Cache im R체cken nun ein짯fach exzes짯si짯ver Gebrauch von Pre짯fet짯ching macht, sei mal dahin gestellt.

Core Pro짯be Band짯width erh철ht

Fer짯ner ver짯spricht AMD durch ein Fea짯ture namens 2x Core Pro짯be Band짯width eine schnel짯le짯re Her짯stel짯lung bzw. Wah짯rung der Cache-Koh채짯renz, da das Inter짯vall, in dem Snoop-Signa짯le aus짯ge짯sen짯det wer짯den, hal짯biert wor짯den sein soll. Vor짯wie짯gend kommt dies dem Ser짯ver-Able짯ger Shang짯hai in Mul짯ti-Sockel-Sys짯te짯men zu Gute, aber laut AMD sol짯len auch die Sin짯gle-Sockel-Denebs davon pro짯fi짯tie짯ren. Jeden drit짯ten Takt soll der K10.5 nun ein Pro짯be-Signal aus짯sen짯den k철n짯nen gegen짯체ber jedem sechs짯ten beim urspr체ng짯li짯chen K10.

Rapid Vir짯tua짯liza짯ti짯on Indexing

In Bezug auf Vir짯tua짯li짯sie짯rung, die im Ser짯ver-Bereich immer mehr an Bedeu짯tung gewinnt, ver짯spricht AMD eben짯falls eine h철he짯re Leis짯tung dank Rapid Vir짯tua짯liza짯ti짯on Index짯ing und Tag짯ged TLBs. Bei짯des f체hrt dazu, dass der Pro짯zes짯sor schnel짯ler zwi짯schen zwei VMs mit eige짯nen Spei짯cher짯adres짯sen umschal짯ten kann. Im Desk짯top-Markt sicher짯lich eine zu ver짯nach짯l채s짯si짯gen짯de Kunst, auf Ser짯vern mit vie짯len vir짯tua짯li짯sier짯ten Maschi짯nen jedoch ist das f체r den Zwil짯lings짯bru짯der Shang짯hai ein will짯kom짯me짯nes Feature.

Smart Fetch

Den Ener짯gie짯be짯darf noch zus채tz짯lich zu sen짯ken ist die Auf짯ga짯be einer Smart Fetch genann짯ten Funk짯ti짯on. Die짯se kopiert den Inhalt des L1- und L2-Caches eines schla짯fen짯den Kerns in den von allen Ker짯nen direkt adres짯sier짯ba짯ren L3-Cache, so dass dar짯auf zuge짯grif짯fen wer짯den kann ohne den betref짯fen짯den Kern zu wecken und ihn in einen nied짯ri짯ge짯ren P멣tate zu ver짯set짯zen. Im End짯ef짯fekt spart dies Ener짯gie und redu짯ziert die Abw채rme.

Bugs besei짯tigt

Neben dem ber체ch짯tig짯ten Erra짯tum 298 ali짯as TLB-Bug besa짯횩en die 65 nm Phe짯noms noch eine Rei짯he wei짯te짯rer 쏹np채ss짯lich짯kei짯ten, soge짯nann짯te Erra짯ta. Im Grun짯de ist das nichts unge짯w철hn짯li짯ches jedes kom짯ple짯xe Pro짯dukt wie ein Pro짯zes짯sor mit meh짯re짯ren Mil짯lio짯nen Tran짯sis짯to짯ren hat Feh짯ler. Selbst beim nagel짯neu짯en Intel Core i7 sind bereits 체ber 70 Bugs bekannt bzw. doku짯men짯tiert, obwohl er erst ein paar Wochen auf dem Markt ist. Die Fra짯ge ist immer nur wie schwer짯wie짯gend sie sind. Meist han짯delt es sich dabei um Klei짯nig짯kei짯ten, die allen짯falls die BIOS-Pro짯gram짯mie짯rer oder Com짯pi짯ler-Ent짯wick짯ler inter짯es짯sie짯ren m체s짯sen. Beim 65 nm K10 jedoch (Step짯ping BA, B2 und B3) waren auch Sachen dabei, die im ung체ns짯ti짯gen Fall den End짯an짯wen짯der tan짯gie짯ren konn짯ten, wie etwa das Erra짯tum 355 DRAM Read Errors May Occur at Memo짯ry Speeds Hig짯her than DDR2-800. Das konn짯te f체r End짯kun짯den durch짯aus 채rger짯li짯che Fol짯gen haben n채m짯lich, dass ein Phe짯nom mit DDR2-1066 Spei짯cher, f체r die er offi짯zi짯ell eine Frei짯ga짯be besitzt, unter Umst채n짯den nicht sta짯bil arbei짯te짯te. Die짯ser Feh짯ler ist nun mit dem C2-Step짯ping des Deneb gefixt, eben짯so wie die unbrauch짯ba짯ren Tem짯pe짯ra짯tur-Mes짯sun짯gen der inter짯nen Dioden (쏧nac짯cu짯ra짯te Tem짯pe짯ra짯tu짯re Mea짯su짯re짯ment). Wie gesagt: in Sachen Bug짯fi짯xing war AMD wirk짯lich gr체nd짯lich. So wur짯den tat짯s채ch짯lich alle Bugs der bis짯he짯ri짯gen K10-Pro짯zes짯so짯ren gefixt, die nicht mit 쐍o fix pla짯ned gekenn짯zeich짯net waren.

Nat체r짯lich sind auch ein paar neue Bugs hin짯zu gekom짯men. Eini짯ge davon wur짯den erst jetzt ent짯deckt, wel짯che die gesam짯te K10-Rei짯he betref짯fen (Step짯ping BA, B2, B3, C2), eini짯ge dage짯gen betref짯fen nur den Shang짯hai bzw. Deneb. Ein paar Sachen sind dabei z.B. DRAM May Fail Trai짯ning on Cold Reset wel짯che End짯kun짯den gele짯gent짯lich 체ber den Weg lau짯fen k철nn짯ten, eini짯ge wer짯den in der Pra짯xis nie짯mals auf짯tre짯ten z.B. 쏶ys짯tem May Hang if Core Fre짯quen짯cy is Even Divi짯sor of North짯bridge Clock solan짯ge AMD kei짯ne Pro짯zes짯so짯ren her짯stellt, bei denen das der Fall ist. Rele짯vant k철nn짯te es h철chs짯tens f체r (Northbridge-)횥bertakter oder (Kern-)Untertakter wer짯den, wenn sie Kern짯fre짯quenz und North짯bridge-/L3-Takt zuf채l짯lig auf die sel짯be Fre짯quenz setzen.

Leis짯tungs짯ver짯spre짯chen

Dass eine Dra짯gon-Platt짯form gem채횩 Ger체ch짯te짯k체짯che um bis zu 30 Pro짯zent schnel짯ler sein soll als eine Spi짯der hat짯ten wir berich짯tet. Seit den Dra짯gon Tech Days, bei denen wir vor Ort in Austin/Texas waren, ist auch bekannt wor짯aus genau die짯se Ver짯bes짯se짯run짯gen resul짯tie짯ren zumin짯dest laut AMD:

  • Etwa 3% kom짯men durch Ver짯bes짯se짯run짯gen der IPC zu Stan짯de. Die짯se kom짯men haupt짯s채ch짯lich durch Ver짯bes짯se짯run짯gen der Branch Pre짯dic짯tion, des TLB und der Pipeline.
  • Etwa 10% betr채gt der Unter짯schied durch die h철he짯re Taktfrequenz
  • Etwa 10% durch den gr철짯횩e짯ren L3-Cache
  • Und zuletzt noch mal etwa 5% durch den Umstieg von DDR2 auf DDR3-Spei짯cher das kommt aller짯dings erst in ein paar Monaten.