![]() |
|
|
|||
|
|||||||
| Hilfe | Registrieren | Blogs | Mainboarddatenbank | Galerie | Extras | Suchen | Heutige Beiträge | Alle Foren als gelesen markieren |
![]() |
|
|
Themen-Optionen | Ansicht |
|
|
Posting #26 (im Thread / einzeln) | |||
|
Opteron
Redaktion
![]() Registriert seit: 13.08.2002
Beiträge: 18.360
|
Zitat:
Zitat:
Zitat:
Also alles ganz brauchbar. Ausnahme ist AVX, da gibts noch keine Architekturoptimierung, aber das ist ja egal, da MS Visual Studio den schnelleren Code liefert. Lustig. |
|||
|
|
Posting #28 (im Thread / einzeln) |
|
Helle53
Lieutenant
![]() Registriert seit: 16.12.2011
Beiträge: 70
|
Eins vorweg: Wenn ein (Desktop)-Prozessor mit neuen Funktionen auf den Markt kommt ist dies ein Anreiz für mich, das Ding zu haben. Für mich sind alle neuen Funktionen "nice to have"; egal von welchem Hersteller und ob sie direkt (sofort) irgend einen Nutzen bringen. Jetzt zu FMA (egal in welcher Variation): Echt "nive to have", aber ausserhalb von synthetischen Benchmarks bitte nicht überschätzen! So oft kommt die Kombination MUL/ADD(SUB) in normalen Code nicht vor; auch in y-cruncher nicht. Übrigens habe ich mal Tests mit einem FX-8120 bezüglich FMA4 vs. AVX gemacht; FMA4 also eine Instruktion, AVX zwei getrennte Instruktionen (1.MUL, 2.ADD /SUB). Der Speed-Unterschied lag bei ca.30% (also FMA4 ca.30% schneller). Die Abweichungen bez. Genauigkeit lagen im Dunstkreis der üblichen Float-Abweichungen, hier greifen sicher erst etliche aufeinander aufbauende Berechnungs-Terme; in der Praxis eher selten.
So, jetzt direkt zu y-cruncher (@GeOrgy): FAM4 wird nicht viel bringen, die Nutzung von (möglichst vielen) 256-Bit-Operationen bringen die Punkte. In y-cruncher sind ca.30% Float-Berechnungen (s.o. Opteron). Gehen wir mal davon aus das weitere 30% Integer-Berechnungen von 256-Bit-Integer-Operationen profitieren könnten, warte ich mal auf Haswell mit AVX2; also 256-Bit-Integer-Operationen. Mein Gott, nach einem Biergarten-Besuch schreibt man doch ein bisschen mehr. Also meine Kern-Aussage: FMA wird hier (für y-cruncher) nicht der große Bringer sein. |
|
|
Posting #29 (im Thread / einzeln) | |
|
Opteron
Redaktion
![]() Registriert seit: 13.08.2002
Beiträge: 18.360
|
@Helle53:
So ganz einfach ist es doch nicht, der Kollege hat da mehrer Algos am Start: Zitat:
Eventuell wäre auf nem BD mit FMA schon ein Plus drin, aber er hat halt keinen BD zum Testen. |
|
|
|
Posting #31 (im Thread / einzeln) |
|
Ge0rgy
Grand Admiral
Special ![]() Registriert seit: 14.07.2006
Beiträge: 3.872
|
@Opteron und Helle
Danke für die weiteren Infos. Ich finde die BD-Zahlen bei den entsprechenden Befehlssätzen sprechen dennoch Bände. Mal die AVX - Porblematik aussen vor und die Tatsache dass FMA keine Verwendung findet, hatten wir doch im Spekuforum auch mal ein Schaubild das sich mit Instruktionslatenzen bei der FPU beschäftigt, wo man recht gut sehen konnte dass SSE3 noch mit am besten optimiert ist, einige Teile von SSE4 sind auch rasend schnell, und dann explodieren die Latenzzahlen. Heisst für mich: Als AVX verabschiedet wurde, war BD schon soweit fortgeschritten, dass man die Kodierung übernommen hat, die SSE5-Fähige FPU aufgebohrt hat damit sie 256Bittig arbeiten kann für die breiten Befehle, aber nicht mehr unheimlich viel Zeit in die optimierung dort investiert hat. Selbst wenn AVX keine Verdoppelung bringt, auch auf Sandy nicht, kann man dennoch sehen, dass während Sandy sauber skaliert und in AVX nochmal an Geschwindigkeit zulegt, Bulldozer im Gegenzug bei AVX ohne FMA deutlich nachlässt. Wenn man aber auch in den FAQ lesen kann, dass es einige Integer-Operationen gibt und Speicherbandbreite die zum Flaschenhals werden können, stellen sich mir dir Fragen: 1. Wie gut schmeckt der reine Integer-Teil des Benchmarks den BD-INT-Cores, und ließe sich da noch was gewinnen mit besseren Optimierungen. 2. Ist vielleicht garnicht AVX und dessen Implementierungsschwäche auf BD ein Problem, sondern eher die Speicherbandbreite, wo wir ja wissen dass es gewisse "Probleme" geben kann mit zu kleinen L1D-Caches, Trashing und mehreren Limitierungen beim Cachezugriff in BD (Siehe Agner Fog) 3. Bietet Piledriver irgend eine Verbesserung in diesen Punkten? Nebenbei ist es schön zu lesen dass der Autor an einer FMA + XOP - Version arbeitet - auf die Ergebnisse bin ich sehr gespannt. Sollte Steamroller nicht auch AVX2 beherrschen? |
|
|
Posting #32 (im Thread / einzeln) |
|
Helle53
Lieutenant
![]() Registriert seit: 16.12.2011
Beiträge: 70
|
Die FMA/XOP-Version wird mich auch sehr interessieren. XOP sind ja durchweg (spezielle) Integer-Instruktionen und ich habe im Moment keine Vorstellung, wie A.Yee diese bei Chudnovsky nutzen will. Aber ich lasse mich da gerne positiv überraschen
!
|