Bulldozer auf Weltreise (BD rollt an Part II)

Status
Für weitere Antworten geschlossen.
da stimme ich dich zu 100% zu. habs gester erlebt wie ein Xeon W3520 @ 2,8Ghz mit 8 Thread wie eine Schnecke bei MT @ Boinc einfach mal einbricht. Laufen 8 Wu´s gleichzeitig sind die ersten 4 Wu´s um gute 50% als die andere HT 4 Wu´s schneller! Also das hat mich sehr enttäuscht weil wenn ich einen PIIX4 945 laufen lasse ist der schneller und schafft 8 Wu´s in einer kürzeren Zeit als der Xeon mit 8 Threads.
Ich selber halte von HT und ST nicht! Hoffe nur das der Bulli bei MT leistungstark sein wird und das brauche ich! ST isst für mich nicht interessant!

Aus einem aehnlichen Grund habe ich idR mehr CPU Kerne im Spielerechner als das Spiel selbst nutzen kann. Was bringt es mir wenn ein Prozessor mit weniger Kernen zwar bei einem Programm schneller und optimal ausgelastet ist aber laufende Hintergrundprozesse wie der Virenscanner, Browser usw. dazwischen hacken? *noahnung*
Da habe ich dann lieber eine Leistungsreserve in der Hinterhand und lasse den ganzen Mist einfach offen.
 
Mit optimierten Code sollte sich da noch das ein oder andere Prozentchen herausholen lassen, wenn sogar Open Source Projekte FMA+XOP in ihren Code einbetten können um das ein oder andere Prozent an Leistungssteigerung hervorzulocken.

Ich befürchte das wird bei den "besseren" kommerziellen Produkten viel länger dauern (auf das "sogar" bezogen).
War bei anderen Befehlsatzerweiterungen auch so wenn ich das richtig in Erinnerung habe.
Aber wie so oft halt das Henne-Ei Problem.
 
Wenn Du nämlich das Posting mal ganz und im Zusammenhang lesen würdest, wüsstest Du, das genau der Tenor von Georgy kommt, um zu begründen, warum singlethreaded Performance nicht mehr notwendig ist.
Also ich glaube, da reimst du dir ein bisschen zu viel zusammen. Er sagte doch lediglich, dass Entwickler das Potenzial von Multicore heutzutage nutzen sollten, auch in Spielen. Es gibt keine Ausreden mehr, das nicht zu tun. Und da hat er völlig Recht. Ich kann jedenfalls nicht lesen, dass er behauptet hätte, singlethreaded Performance wäre überhaupt nicht mehr notwendig. Tatsache ist aber, dass singlethreaded Performance mehr und mehr an Bedeutung verliert. Die Hersteller stagnieren hier schon seit Jahren. Mehr als Verbesserungen in homöopathischen Dosierungen gibt's doch von Generation zu Generation nicht mehr. Und solange keine Prozessoren mit aberwitzigen Taktraten marktreif sind, 100 GHz und mehr sind im Gespräch, wird sich daran auch nicht viel ändern.
 
Noch 12 Tage :). Wirklich höchste Eisenbahn, daß der Bulldozer endlich auf die Welt losgelassen wird. Nicht nur, daß es mir selber schon zulange dauert, sondern auch damit diese ganzen Spekulationen hier und anderswo ein Ende finden. Aber eins kann man doch fürs erste schon mal festhalten: Bulldozer war/ist bisher der "unterhaltsamste" Prozi ever ;D. Ich frage mich ja was einige machen werden, wenn BD gelauncht ist? Könnte dann glatt langweilig werden :).

Lg,

Ice
 
"Wir arbeiten sehr hart an der Ausbeute, und erste Verbesserungen sind sichtbar", kommentierte die Dresdner GF-Sprecherin Karin Raths die AMD-Kritik. "Uns ist klar, dass wir noch besser werden müssen. Aber es handelt sich hier um eine neue und sehr komplexe Technologie, an der noch keine andere Foundry arbeitet." Denn GF verkleinert derzeit nicht nur die Chipstrukturen, sondern führt auch neue Materialien ein, die die Schaltgeschwindigkeit der Prozessoren erhöhen sollen, den Produktionsprozess allerdings auch komplexer machen. Intel beherrscht diese Technologie bereits.
.
EDIT :
.

sorry falscher thread.
 
Das mit dem 12. Oktober scheint jetzt wirklich fix zu sein.

Aus dem anandtech-Forum: Hier hat eine französische PC-Zeitung den FX-8150 und FX-6100 komplett gebencht.

http://forums.anandtech.com/showpost.php?p=32349927&postcount=2046

Herauslesen kann man daraus aber auch nicht allzuviel und mein französisch ist gerade etwas eingerostet :P.
 
Ich bin begeistert ob dieses neuen Benchmarks der nun alles, aber auch wirklich alles über Bulldozers Performance zeigt was es zu wissen gibt.

Allerdings denke ich, das wir das besser können! Ich finde, P3D sollte für Oktober nicht die beste Usernews sondern den besten User-Bench des BD prämieren. Wer hat Talent und Photoshop? (Assistenten der Geschäftsführung dürfen ausnahmsweise PowerPoint verwenden.) Es gibt kaum Einschränkungen der kreativen Freiheit, nur muß man peinlich vermeiden irgendwelche Zahlen zu zeigen die später mit der Realität vergleichbar wären.
 
@ Rangoon

Diese Info ist ja mal wirklich absolut unbrauchbar. Sammelt da jemand Klicks????????
 
Warum? ist doch eindeutig. Bulldozer hat immer den obersten Balken. *buck*
 
Grase gerade das x264 chatlog durch, ob was interessantes dabei ist, Kandidaten:
2011-09-16 23:42:16 < Dark_Shikari> Oh YI, we know now why AVX is useless on bulldozer
2011-09-16 23:42:20 < Dark_Shikari> *FYI
2011-09-16 23:42:22 < Dark_Shikari> Move elimination
2011-09-16 23:42:29 < Dark_Shikari> Their OOE engine eliminates moves and resolves them before ALU stage
2011-09-16 23:42:34 < Dark_Shikari> So moves are free, so AVX doesn't help
2011-09-16 23:42:39 < Dark_Shikari> Except reducing code size ofc
Die neuen Perf.counter scheinen auch zu gefallen:
2011-09-23 18:56:03 < Dark_Shikari> Okay, so I have a massive series of bulldozer profiles ready
2011-09-23 18:56:13 < Dark_Shikari> It has instruction-based sampling and all sorts of awesome stuff
2011-09-23 18:56:43 < JEEB> AMD? Awesome stuff? This sounds like something that doesn't happen very often
2011-09-23 18:57:21 < Gramner> any NDA?
2011-09-23 18:59:53 < Dark_Shikari> Technically yeah
2011-09-23 19:00:08 < Dark_Shikari> Though a lot of the stuff isn't bulldozer-specific, its performance counters are just awesome
2011-09-23 19:00:32 < Dark_Shikari> Unsurprisingly, our load/store queue is full in pixel_avg functions.
2011-09-23 19:01:25 < Dark_Shikari> Er, load queue.
2011-09-23 19:01:36 < Dark_Shikari> Our store queue, on the other hand, fills in plane_copy, mc_copy...
2011-09-23 19:01:38 < Dark_Shikari> slicetype_mb_cost?
2011-09-23 19:02:12 < Dark_Shikari> cache_load and cache_save, guess that's obvious
2011-09-23 19:02:33 < Dark_Shikari> analyse_init, naturally
2011-09-23 19:02:50 < Dark_Shikari> Okay, time for INEFFECTIVE_SW_PREFETCHES
2011-09-23 19:03:05 < Dark_Shikari> Oh, this is awesome. It tells you when a prefetch is useless, i.e. the data was already in L1 cache
2011-09-23 19:03:12 < Dark_Shikari> Almost all of the "useless prefetches", pengvado, are in hpel_filter
2011-09-23 19:03:21 < Dark_Shikari> The rest are in cache_load
2011-09-23 19:03:23 < Dark_Shikari> Guess that's expected.
2011-09-23 19:04:02 < Dark_Shikari> Next: DECODER_EMPTY.
2011-09-23 19:04:17 < Dark_Shikari> I... think this is where the instruction decoder... hmm. Is this where the decoder is too fast, or too slow?
2011-09-23 19:04:43 < Dark_Shikari> Okay, it's where the decoder is too slow (there's nothing to dispatch)

(...)
2011-09-23 21:47:40 < Dark_Shikari> Thank you performance counters, I think I just made CABAC RD way faster
2011-09-23 21:48:37 < LordRPI> nice
2011-09-23 21:49:22 < Dark_Shikari> 50% of the branch mispredictions in cabac were on one line of code
2011-09-23 21:49:26 < Dark_Shikari> a restructure of the function, kabam
Amüsantes, Ja, 3dnow ist wirklich weg:
2011-09-27 00:55:51 < Dark_Shikari> pengvado: oh oops, vpermilps and pd are 5-operand (!!!!!)
2011-09-27 00:55:57 < Dark_Shikari> dst,src1,src2,selector,imm8
2011-09-27 00:56:25 < Dark_Shikari> I mean seriously wtf
2011-09-27 01:04:02 < Dark_Shikari> Also, they apparently dropped 3DNOW
*g*

Und AVX scheint wirklich nicht so toll zu sein:
2011-09-28 01:33:41 < Dark_Shikari> AVX mbtree propagate is slower than sse2
2011-09-28 01:33:49 < Dark_Shikari> FMA only barely manages to get it fast again.
2011-09-28 01:33:49 < kemuri-_9> lol
2011-09-28 01:33:52 < Sean_McG> hahah
2011-09-28 01:33:59 < Dark_Shikari> SSE2: 342 cycles
2011-09-28 01:34:00 < Dark_Shikari> AVX: 374
2011-09-28 01:34:05 < Dark_Shikari> FMA4: 340
2011-09-28 01:34:18 < kemuri-_9> lol
2011-09-28 01:34:26 < Dark_Shikari> I guess this makes sense given that it only has 128-bit execution units
2011-09-28 01:34:34 < Dark_Shikari> and the INT16_TO_FLOAT code is obnoxiously slow because avx sucks
2011-09-28 01:34:41 < Dark_Shikari> i.e. avx has no way of doing int16_t -> float fast
2011-09-28 01:35:18 < Dark_Shikari> Hmm. I wonder if FMA4 supports sse registers?
2011-09-28 01:35:37 < Dark_Shikari> Oh. It *does*...
2011-09-28 01:35:38 < Dark_Shikari> Let me try that.
2011-09-28 01:37:45 * codestr0m ears perk up
2011-09-28 01:49:29 < Dark_Shikari> FMA4: 314 cycles. Much better
2011-09-28 01:49:46 < codestr0m> Dark_Shikari: what was the change?
2011-09-28 02:01:21 < Dark_Shikari> using the sse instead of avx version
2011-09-28 02:01:26 < Dark_Shikari> as the basis for xop
und zum Schluss:

2011-10-01 02:09:51 < Dark_Shikari> xop will make this a lot easier, but I'm trying to do ssse3 first
http://akuvian.org/src/x264/freenode-x264dev.log.bz2
 
@Opteron
Ist es möglich das noch inaktive SSE5 Instructionen im BD1 Design existieren? Soweit ich weiß hat man sich nach 2009 auf Turbo 2.0, AVX & 32nm konzentriert, was ist wenn AMD keine Zeit hatte das SSE5 komplett rauszunehmen oder ist das bei einer neuen Maske kein Thema?
 
Nur noch 10 Tage 2h 5min!
 
@Opteron
Ist es möglich das noch inaktive SSE5 Instructionen im BD1 Design existieren? Soweit ich weiß hat man sich nach 2009 auf Turbo 2.0, AVX & 32nm konzentriert, was ist wenn AMD keine Zeit hatte das SSE5 komplett rauszunehmen oder ist das bei einer neuen Maske kein Thema?
Ne, bzw. jein. Intern sind das doch sowieso die selben µOps, da intel außer der eleganteren Codierung nicht viel geändert hat.
Ob jetzt SSE5 Codierung -> FMA µOps oder
AVX Codierung -> FMA µOps, ist nur ein kosmetischen Problem für den Decoder. Da hat sich sowieso nicht viel geändert. Größte Änderung für AMD waren nur die 256b Register, was man durchs Büdeln der FMA Pipes dann aber auch gut hinbekommt.
Aber AVX Register haben doch die doppelte Datenbreite. Insofern kein Beinbruch, wenn die Befehlslatenzen etwas höher sind.
Jein, v.a. für den mutlithread Betrieb ist ja 128bit besser, da dann jeder Thread "seine" FMAC Pipe hat, außerdem gibts im 256b Koppelbetrieb noch ein paar Reibungsverluste. Dazu gabs vor ein paar Monaten doch auch mal ne Standardoptimierung im GCC, da stand dass BD ein paar Punkte im 256b Betrieb verliert. Aber immerhin läufts, in jedem Fall ein Vorteil ;-)

@Makso: Vermutlich endet die NDA wieder morgens um 6, also addier die mal noch dazu ;-)
 
Jein, v.a. für den mutlithread Betrieb ist ja 128bit besser, da dann jeder Thread "seine" FMAC Pipe hat
Das ist das, was JF sagt. Da sollte man mittlerweile doch etwas vorsichtig sein. Im Optimization Guide steht jedenfalls, dass die FPU im selben Takt nur von EINEM Thread Ops erhalten kann.
 
Nur noch 10 Tage 2h 5min!

Wenn du es genau haben willst, klick einfach auf den Affen ;)

@Opteron
Verstehe ich das richtig, das AVX im Prinzip wie SSE aufgebaut ist? Ich erinnere mich an den SSE5-Artikel auf P3D, da sah das ganze doch noch ganz anders aus *noahnung*
 
Das ist das, was JF sagt. Da sollte man mittlerweile doch etwas vorsichtig sein. Im Optimization Guide steht jedenfalls, dass die FPU im selben Takt nur von EINEM Thread Ops erhalten kann.
Ja die FPU, bestehend aus FPU Scheduler und Rechenunits. Richtig, pro Takt kommen von einem Thread max. 2 Ops in den Scheduler mit 60 Plätzen in der Warteschlange. Nur wird in der Warteschlange halt nicht gewartet, sondern die Reihenfolge nach OoO Manier gut durchgeschüttelt. Das geht mit 2x128bit logischerweise einfacher, als mit 1x256.
Ansonsten,hier der GCC-Patch, die müssen es schließlich wissen:
Attached is the patch to force gcc to generate 128-bit avx instructions for bdver1. We found that for the current Bulldozer processors, AVX128 performs better than AVX256. For example, AVX128 is 3% faster than AVX256 on CFP2006, and 2~3% faster than AVX256 on polyhedron.
http://patchwork.ozlabs.org/patch/82705/

@Opteron
Verstehe ich das richtig, das AVX im Prinzip wie SSE aufgebaut ist? Ich erinnere mich an den SSE5-Artikel auf P3D, da sah das ganze doch noch ganz anders aus *noahnung*
Jein ;-)
Was sich bei AVX v.a. geändert hat sind die Opcodes. Die wurden bei AVX verkürzt und brauchen deshalb weniger Platz im Instructioncache. Stells Dir so vor, als ob man statt Münchnerstraße 342 einfach Münchnerstr. 342 schreibt. Wenn man ein paar 100 Adressen hat, rentiert sich die Platzersparnis schon ;-) Die Adresse, bzw. die Funktion dahinter blieb aber weitestgehend gleich. Intel hat sich die Rosinen/Befehle rausgesucht, die sie mit ihrer aktuellen µArch. ausführen können auf 256b aufgebohrt und den Rest weggelassen, das läuft bei AMD nun als XOP, genaugenommen könnte mans auch SSE5_Rest nennen ^^

Intel holt das dann per AVX2 nach, allerdings hatten sie dann jetzt auch Zeit viel mehr umzuändern, da kommt auch einiges mehr, z.B. Scatter&Gatter Funktionen, mal schauen, ob AMD das schon für BDv3 hinbekommt.
 
Zuletzt bearbeitet:
Hmm, ok, danke für die simple Erklärung :)

Wenn jetzt Intel mit AVX2 XOP nachholt, ist dann AMD schon AVX2-fähig? Oder muss AMD das neu verifizieren, falls ich das so nennen darf?
 
Wenn jetzt Intel mit AVX2 XOP nachholt, ist dann AMD schon AVX2-fähig? Oder muss AMD das neu verifizieren, falls ich das so nennen darf?
Jein ... die Scatterfunktionen hören sich eher kompliziert an, und ohne das ist man halt nicht 100% AVX kompatibel. 95% reicht nicht :(
Bösartige Menschen werden behaupten, dass Intel das mit Absicht gemacht hat *lol*
Kernfrage ist, ob man dazu ne komplett neue Pipe wie bei AES braucht, oder ob das sich irgendwie mit den vorhandenen Mitteln/ExecUnits durchführen läßt.
 
Das was Du oben aus diesem Chatlog gepostet hast, hört sich aber nicht unbedingt so an, als wäre AVX unbedingt schlecht, sondern als wäre SSE wesentlich besser geworden (move for free usw.) und nur deswegen AVX kein sonderliches Plus mehr dazu. Das würde ja bedeuten, daß die Software nicht unbedingt AVX nutzen muß, um schneller zu werden. Vielleicht ist der Unterschied bei Intel einfach nur größer, weil Intel diverse Verbesserungen nur für AVX vorbehalten hat.

Aber ich denke, so eine neue Architektur muß einfach erst eine Weile verfügbar sein, bis sich die Softwareentwickler darauf eingeschossen haben. Wenn wir also einzelne Benchmarks sehen, wo BD nicht wirklich zulegt oder gar langsamer ist als der Vorgänger, dann könnte es möglicherweise auch einfach an noch angezogenen Handbremsen in der Software liegen (nur nicht nur an "BD ist Mist"). Wäre mal interessant ein Jahr später mit der gleichen Hardware aber neuen Softwareversionen nochmal zu testen.

Naja mal abwarten, die paar Tage halten wir jetzt auch noch aus (hoffentlich ohne persönliche Angriffe^^).
 
War ja mit jeder SSE-Version so, das man die Vorteile erst später mitbekommen hat.
Dürfte bei AVX auch nicht besser sein.
 
Na ja, SSE2 hat durch die breite Unterstützung und durch 64Bit ja einen Riesenschub bekommen und x87 vollständig ersetzt. AVX (und FMA3, wahrscheinlich auch AVX2) wird wieder von beiden Herstellern supportet.
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten