Vishera Reloaded

Artikel-Index:

Performance mit vier Threads


Auf die­ser Sei­te möch­ten wir uns den Per­for­mance-Unter­schied anschau­en, wel­cher bei Nut­zung von vier Threads auf vier Modu­len bzw. vier Threads auf zwei Modu­len ent­steht. AMD gibt an, durch Ver­dop­pe­lung der Regis­ter sowie der Inte­ger-Ein­hei­ten, was etwa 20 Pro­zent des Flä­chen­be­darfs eines “ech­ten” Kerns bedeu­tet, ca. 80 Pro­zent der Per­for­mance eines Kerns erzie­len zu kön­nen. Auf unse­re Test­rei­he über­tra­gen bedeu­tet dies, dass vier Threads, wel­che auf vier Modu­len lau­fen (also je Thread die kom­plet­ten Res­sour­cen eines Moduls zur Ver­fü­gung ste­hen) schnel­ler arbei­ten kön­nen als vier Threads, die sich die Res­sour­cen von zwei Modu­len tei­len müs­sen. Vier Threads auf zwei Modu­len sol­len also etwa 90 Pro­zent der Leis­tung von vier Threads auf vier Modu­len errei­chen. So sind jeden­falls die Anga­ben von AMD zu ver­ste­hen. Wer­fen wir nun einen Blick auf die Pra­xis, für wel­che die­ses Mal das Giga­byte GA-990FXA-UD7 zum Ein­satz kommt:

Performance mit vier Threads - WinRAR
Je ein Thread pro Modul bedeu­tet im Win­RAR einen deut­li­chen Per­for­man­ce­schub. Die zwei-Modul-Kon­fi­gu­ra­ti­on ist jedoch mit rund 88 Pro­zent der Leis­tung knapp unter der von AMD pro­gnos­ti­zier­ten Per­for­mance und kann sich damit nicht ganz so gut in Sze­ne setzen.

Performance mit vier Threads - XMPEG + XViD
Unter XMPEG ste­hen für zwei Modu­le 92 Pro­zent der Per­for­mance von vier Threads auf vier Modu­len zu Buche. Damit zeigt sich das Modul­kon­zept hier von sei­ner bes­se­ren Seite.

Das Ergeb­nis in XMPEG zeigt jedoch noch eine wei­te­re Beson­der­heit, wel­che nicht aus dem Dia­gramm her­vor­geht: In Nor­mal­kon­fi­gu­ra­ti­on (also acht Threads auf vier Modu­len) dau­ert der XMPEG-Bench­mark zwi­schen 185 Sekun­den (Tur­bo CORE akti­viert) und 191 Sekun­den (Tur­bo CORE deak­ti­viert). Bei­de Kon­fi­gu­ra­tio­nen mit vier Threads unter­bie­ten die­ses Ergeb­nis mehr als deut­lich. Zuerst hat­ten wir hier das ver­wen­de­te Giga­byte-Main­board in Ver­dacht. Doch wir muss­ten schnell fest­stel­len, dass es tat­säch­lich an den zur Ver­fü­gung ste­hen­den Res­sour­cen liegt. Denn akti­viert man auch auf dem Giga­byte-Main­board wie­der alle acht Threads des FX-8350, so lan­det die Bear­bei­tungs­zeit auch wie­der im bis­her bekann­ten Zeit­fens­ter. Somit scheint die­se Soft­ware ein Pro­blem mit der Modul­bau­wei­se zu haben bzw. mit weni­ger Res­sour­cen bes­ser klar­zu­kom­men. Mög­li­cher­wei­se liegt das an her­um­ge­reich­ten Bear­bei­tungs­th­reads, wel­che immer wie­der auf gera­de abge­schal­te­ten Ker­nen lan­den, was bis zum erneu­ten Auf­wa­chen eini­ge Takt­zy­klen kos­tet. Eine wei­te­re Erklä­rung könn­te sein, dass XMPEG häu­fig auf Daten im L2-Cache zurück­greift. Sobald ein Bear­bei­tungs­th­read auf ein ande­res Modul ver­scho­ben wur­de, ist der L2-Cache des soeben noch genutz­ten Moduls für den Thread nicht mehr erreich­bar, sodass erst wie­der nach­ge­la­den wer­den muss.

Performance mit vier Threads - Cinebench R11.5
Mit nur rund 82 Pro­zent der Per­for­mance ist die zwei-Modul-Kon­fi­gu­ra­ti­on im Cine­bench inner­halb unse­res kur­zen Bench­mark-Par­cours gegen­über der Kon­fi­gu­ra­ti­on mit vier Modu­len am Lang­sams­ten. Hier wird die Per­for­mance-Pro­gno­se von AMD in unse­ren weni­gen Tests deut­lich unterschritten.

Performance mit vier Threads - 3DMark 11 Performance Preset Gesamt
Im Gesamt­ergeb­nis des 3DMark 11, in wel­chem zuge­ge­be­ner­ma­ßen die Gra­fik­leis­tung im Vor­der­grund steht, tren­nen bei­de Ergeb­nis­se nicht ein­mal vier Prozent.

Performance mit vier Threads - 3DMark 11 Performance Preset Physik
Im Phy­sik-Test, wel­cher sehr stark auf die Pro­zes­sor­leis­tung ange­wie­sen ist, ste­hen über 88 Pro­zent der Leis­tung der nati­ven Ker­ne zu Buche.

Performance mit vier Threads - Crysis 1280x1024
Performance mit vier Threads - Crysis 1600x1200
Performance mit vier Threads - Crysis 1920x1200
Crysis, wel­ches aber­mals eher gra­fik­las­tig aus­fällt, schmeckt der Modul­bau­wei­se. Je nach Auf­lö­sung liegt die Per­for­mance von vier Threads auf zwei Modu­len gegen­über vier Threads auf vier Modu­len zwi­schen 97 und 98 Pro­zent – bes­ser geht es nicht.

Performance mit vier Threads - Sleeping Dogs 1280x1024
Performance mit vier Threads - Sleeping Dogs 1600x1200
Performance mit vier Threads - Sleeping Dogs 1920x1200
Slee­ping Dogs ist hier schon ein ande­res Kali­ber. In nied­ri­gen Auf­lö­sun­gen, in denen bekann­ter­ma­ßen das Gra­fik­li­mit nicht so aus­ge­prägt ist, erreicht das Modul­kon­zept etwa 88 Pro­zent der Leis­tung von nati­ven Ker­nen. Mit stei­gen­der Auf­lö­sung steigt auch das Ergeb­nis, da sich das Per­for­man­ce­li­mit immer wei­ter in Rich­tung Gra­fik­kar­te ver­schiebt. In 1920x1200 wer­den immer­hin 95 Pro­zent der Leis­tung nati­ver Ker­ne erreicht.

Über unse­ren kur­zen Test­par­cours gemit­telt erreicht die Modul­bau­wei­se 92 Pro­zent der Leis­tung von vier Threads auf vier nati­ven Ker­nen. Inso­fern wird die Aus­sa­ge von AMD, etwa 90 Pro­zent der Leis­tung zu errei­chen, ziem­lich genau eingehalten.