App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Bulldozer - AMD Fam 15h - allgemeiner Infothread
- Ersteller Opteron
- Erstellt am
Lynxeye
Admiral Special
- Mitglied seit
- 26.10.2007
- Beiträge
- 1.107
- Renomée
- 60
- Standort
- Sachsen
- Mein Laptop
- Lifebook T1010
- Prozessor
- AMD FX 8150
- Mainboard
- Gigabyte GA-970A-UD3
- Kühlung
- Zalman Reserator 1 Plus
- Speicher
- 4x8GB DDR3-1600 G.Skill Ripjaws
- Grafikprozessor
- ASUS ENGTX 260
- Display
- 19" AOC LM928 (1280x1024), V7 21" (1680x1050)
- HDD
- Crucial M4 128GB, 500GB WD Caviar 24/7 Edition
- Optisches Laufwerk
- DVD Multibrenner LG GSA-4167B
- Soundkarte
- Creative Audigy 2 ZS
- Gehäuse
- Amacrox Spidertower
- Netzteil
- Enermax Liberty 500W
- Betriebssystem
- Fedora 17
- Webbrowser
- Firefox
- Verschiedenes
- komplett Silent durch passive Wasserkühlug
Allerdings bleibt zu bedenken, dass dem Bulldozer i7 optimierter Code viel besser schmeckt als Code, welcher auf die eigene Vorgängergeneration K10 optimiert ist. Das liegt hauptsächlich am kleinen L1 Cache des BD, welcher bei Intel schon länger zu finden ist.
Opteron
Redaktion
☆☆☆☆☆☆
Ja das CB11.5 nervt mich auch schon lange. Vor allem da CB10 ganz gut skaliert.Interessant ist eigentlich, dass es mit K10 Optimierungen langsamer läuft als mit K8 Optimierungen. Das würde meinen Verdacht weiter erhärten, dass K10 Optimierungen dem Bulldozer nicht sonderlich schmecken. Was auch ein Grund sein könnte, warum sich Bulldozer in diversen Benchmarks, zB Cinebench 11.5, kaum vom K10 absetzen kann. Anhand der Werte von Nero liegen immerhin fast 18% zwischen K10 und Bdver1 Build. Nicht schlecht.
Bastle gerade an nem VM-Ware "Patch" für meinen Nehalem, aktuelles Resultat:
(Besonders stolz bin ich aufs 3DNow! )
Aber Spass beiseite: Wollen wir das mal mit nem Bulldozer machen? Ich würde mal vorschlagen ihn als P4 Modell Prescott zu "tarnen". Schätze, dass das am Besten laufen sollte und max. SSE3 sollte genügen. K8 könnten man natürlich auch ausprobieren.
Edit: Wobei: Hatte der P4 schon 128bit SSE? Glaube nicht, aber ich erinnere mich dunkel, dass der ICC trotzdem schon 128b Code generierte. Naja, notfalls dann halt ne Conroe-Tarnung. Alles nur "Abschreibarbeit".
Wie wahrscheinlich sind SSE4.1 Befehle bei CB11? Vielleicht sollte man doch von Anfang an ne Conroe-Tarnkappe überziehen.
Cinebenchresultate-mäßig hab ich mit dem Nehalem@BD etwas geringere Werte im single-thread Bench (maximal -0,07), aber das kann auch einfach die Messungenauigkeit sein. Ist aber auch die Frage, ob es den Nehalem nennenswert jucken würde, wenn er anderen Code bekäme. Bulldozer ist da sicherlich zickiger.
Markus Everson
Grand Admiral Special
Normalerweise lösche ich nicht mehr benötigte WAV-Audiostreams gleich wieder. Sollten allerdings noch weitere Compilate folgen - gruffi - würde ich den Steam der Vergleichbarkeit halber behalten, um noch weitere Tests unter identischen Voraussetzungen durchführen zu können.
Ich hatte vor einiger Zeit mal vorgeschlagen das fette Kaninchen als Source und das Testmaterial durch Angabe von Start- und Endzeit zu definieren. Damit könnten verschiedene Leute auf verschiedenen Plattformen unabhängig voneinander vergleichbare Testreihen fahren.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Habe noch ein bisschen mit den Einstellungen rumgespielt. Das soll aber vorerst reichen. Werde eventuell noch ein paar Tests machen, wenn mein Trinity System endlich steht.Normalerweise lösche ich nicht mehr benötigte WAV-Audiostreams gleich wieder. Sollten allerdings noch weitere Compilate folgen - gruffi - würde ich den Steam der Vergleichbarkeit halber behalten, um noch weitere Tests unter identischen Voraussetzungen durchführen zu können.
Die Assemblerroutinen scheinen zumindest beim K10 noch ein paar Prozent zu bringen. Auch das -ffast-math Flag bringt nochmal einen Schub. Allerdings kann es sein, dass mit diesem Flag IEEE konforme Ergebnisse nicht mehr garantiert sind. Ist also mit Vorsicht zu geniessen.
play/CPU
K10 (asm): ~36,62
K10 (asm, fast-math): ~39,68
Ach menno, jetzt spackt auch der MySQL Server von file-upload rum. Dann halt der nächste Hoster.
http://www.uploadstube.de/download.php?file=315322
lame_x64_amdfam10_asm.exe
lame_x64_amdfam10_asm_fastmath.exe
lame_x64_bdver1_asm.exe
lame_x64_bdver1_asm_fastmath.exe
Hier nochmal alles auf einen Blick (Testsystem AMD FX-6100, Turbo und CnQ an + Win7 x64):
Encodierzeit meiner bisherigen Version auf Basis der 3.99.4
lame_x64_win64: 2:36 min
Und nun gruffis Versionen auf Basis der 3.99.5
lame_x64_k8: 2:52 min
lame_x64_amdfam10: 3:07 min
lame_x64_amdfam10_asm: 2:59 min
lame_x64_amdfam10_asm_fastmath: 2:53 min
lame_x64_bdver1: 2:39 min
lame_x64_bdver1_asm: 2:45 min
lame_x64_bdver1_asm_fastmath: 2:33 min
lame_x64_bdver2_fma: absturz
lame_x64_bdver2_fma4: absturz
asm scheint beim Bulldozer kontraproduktiv zu sein, erst durch asm mit fastmath gelingt es, "mein" Referenz-Compilat zu unterbieten. Bedingt der Parameter fastmath eigentlich asm? Falls nicht, könntest Du nochmal eine bdver1-Version nur mit fastmath ohne asm kompilieren? Das müsste dann das schnellste sein auf dem Zambezi. 8)
Allerdings hat gruffi ja bereits angedeutet, dass durch fastmath die Genauigkeit der Berechnungen leiden könnte. Zwar sind die Dateien, die bdver1 und bdver1_asm_fastmath erstellen, gleich groß, ein FC jedoch zeigt "unendlich" viele Unterschiede. Die Output-Datei ist also nicht identisch.
Encodierzeit meiner bisherigen Version auf Basis der 3.99.4
lame_x64_win64: 2:36 min
Und nun gruffis Versionen auf Basis der 3.99.5
lame_x64_k8: 2:52 min
lame_x64_amdfam10: 3:07 min
lame_x64_amdfam10_asm: 2:59 min
lame_x64_amdfam10_asm_fastmath: 2:53 min
lame_x64_bdver1: 2:39 min
lame_x64_bdver1_asm: 2:45 min
lame_x64_bdver1_asm_fastmath: 2:33 min
lame_x64_bdver2_fma: absturz
lame_x64_bdver2_fma4: absturz
asm scheint beim Bulldozer kontraproduktiv zu sein, erst durch asm mit fastmath gelingt es, "mein" Referenz-Compilat zu unterbieten. Bedingt der Parameter fastmath eigentlich asm? Falls nicht, könntest Du nochmal eine bdver1-Version nur mit fastmath ohne asm kompilieren? Das müsste dann das schnellste sein auf dem Zambezi. 8)
Allerdings hat gruffi ja bereits angedeutet, dass durch fastmath die Genauigkeit der Berechnungen leiden könnte. Zwar sind die Dateien, die bdver1 und bdver1_asm_fastmath erstellen, gleich groß, ein FC jedoch zeigt "unendlich" viele Unterschiede. Die Output-Datei ist also nicht identisch.
Wurde eigentlich nur mit -march oder auch mit -mtune kompiliert? Ersteres bezieht sich ja auf die Instruktionen und zweites auf Optimierungen für die Architektur.
Man könnte ja auch mal testen ob ein auf Nehalem oder Sandybridge optimierter Code auf dem Bulldozer besser läuft als ein auf K10 optimierter. Wie von Lynxeye erwähnt wäre ja eigentlich davon auszugehen.
Edit: Bei -mtune könnte man ebenfalls mal das bdver2 tag testen.
Man könnte ja auch mal testen ob ein auf Nehalem oder Sandybridge optimierter Code auf dem Bulldozer besser läuft als ein auf K10 optimierter. Wie von Lynxeye erwähnt wäre ja eigentlich davon auszugehen.
Edit: Bei -mtune könnte man ebenfalls mal das bdver2 tag testen.
Zuletzt bearbeitet:
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Eigentlich nicht. Die Assembler Routinen werden mittels NASM übersetzt. Da spielt das Flag keine Rolle.Bedingt der Parameter fastmath eigentlich asm?
Jup. Werde es noch nachliefern.Falls nicht, könntest Du nochmal eine bdver1-Version nur mit fastmath ohne asm kompilieren?
Mit beidem.Wurde eigentlich nur mit -march oder auch mit -mtune kompiliert?
Kann ich auch noch nachliefern. Letzteres wird aber vermutlich keine grossen Auswirkungen auf die bisherigen bdver1 Builds haben.Man könnte ja auch mal testen ob ein auf Nehalem oder Sandybridge optimierter Code auf dem Bulldozer besser läuft als ein auf K10 optimierter. Wie von Lynxeye erwähnt wäre ja eigentlich davon auszugehen.
Edit: Bei -mtune könnte man ebenfalls mal das bdver2 tag testen.
Dr@
Grand Admiral Special
- Mitglied seit
- 19.05.2009
- Beiträge
- 12.791
- Renomée
- 4.066
- Standort
- Baden-Württemberg
- Aktuelle Projekte
- Collatz Conjecture
- Meine Systeme
- Zacate E-350 APU
- BOINC-Statistiken
- Mein Laptop
- FSC Lifebook S2110, HP Pavilion dm3-1010eg
- Prozessor
- Turion 64 MT37, Neo X2 L335, E-350
- Mainboard
- E35M1-I DELUXE
- Speicher
- 2x1 GiB DDR-333, 2x2 GiB DDR2-800, 2x2 GiB DDR3-1333
- Grafikprozessor
- RADEON XPRESS 200m, HD 3200, HD 4330, HD 6310
- Display
- 13,3", 13,3" , Dell UltraSharp U2311H
- HDD
- 100 GB, 320 GB, 120 GB +500 GB
- Optisches Laufwerk
- DVD-Brenner
- Betriebssystem
- WinXP SP3, Vista SP2, Win7 SP1 64-bit
- Webbrowser
- Firefox 13
Die Prefetch-Befehle sind meines Wissens erhalten geblieben. Würde wohl auch kaum Sinn machen, FMA - was BD als neues Feature integriert bekommen hat - mit Befehlen fest zu kombinieren, die der BD nicht kennt.
Yep, Kommando zurück, sehe gerade, dafür gibt es inzwischen ein eigenes CPUID-Flag namens "3DNowPrefetch". Ist bei mir gesetzt (FX-8120). Andere (ursprüngliche) 3DNow!-Instruktionen habe ich nicht gefunden. Ich muss mal meine AMD-Dokumentation erneuern... Sorry!
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Hätte mich auch stark gewundert, wenn GCC mit -march=bdver1 nicht mehr unterstützte 3DNow! Instruktionen erzeugt.
Ok, folgende Builds habe ich noch:
bdver1 mit -ffast-math Flag
-mtune=bdver2 + -march=bdver1 mit und ohne -ffast-math Flag
corei7-avx mit und ohne -ffast-math Flag
lame_x64_bdver1_fastmath.exe
lame_x64_bdver1+bdver2.exe
lame_x64_bdver1+bdver2_fastmath.exe
lame_x64_corei7-avx.exe
lame_x64_corei7-avx_fastmath.exe
http://www.uploadstube.de/download.php?file=63515
Ergebnisse kann ich leider keine liefern, da alle Builds auf meinem Regor nicht laufen.
Ok, folgende Builds habe ich noch:
bdver1 mit -ffast-math Flag
-mtune=bdver2 + -march=bdver1 mit und ohne -ffast-math Flag
corei7-avx mit und ohne -ffast-math Flag
lame_x64_bdver1_fastmath.exe
lame_x64_bdver1+bdver2.exe
lame_x64_bdver1+bdver2_fastmath.exe
lame_x64_corei7-avx.exe
lame_x64_corei7-avx_fastmath.exe
http://www.uploadstube.de/download.php?file=63515
Ergebnisse kann ich leider keine liefern, da alle Builds auf meinem Regor nicht laufen.
Hier nochmal alles auf einen Blick (Testsystem AMD FX-6100, Turbo und CnQ an + Win7 x64):
Encodierzeit meiner bisherigen Version auf Basis der 3.99.4
lame_x64_win64: 2:36 min
Und nun gruffis Versionen auf Basis der 3.99.5
lame_x64_k8: 2:52 min
lame_x64_amdfam10: 3:07 min
lame_x64_amdfam10_asm: 2:59 min
lame_x64_amdfam10_asm_fastmath: 2:53 min
lame_x64_bdver1: 2:39 min
lame_x64_bdver1_asm: 2:45 min
lame_x64_bdver1_asm_fastmath: 2:33 min
lame_x64_bdver1_fastmath: 2:35 min
lame_x64_bdver1+bdver2: 2:45 min
lame_x64_bdver1+bdver2_fastmath: 2:35 min
lame_x64_bdver2_fma: absturz
lame_x64_bdver2_fma4: absturz
lame_x64_corei7-avx: 2:43 min
lame_x64_corei7-avx_fastmath: 2:37 min
Encodierzeit meiner bisherigen Version auf Basis der 3.99.4
lame_x64_win64: 2:36 min
Und nun gruffis Versionen auf Basis der 3.99.5
lame_x64_k8: 2:52 min
lame_x64_amdfam10: 3:07 min
lame_x64_amdfam10_asm: 2:59 min
lame_x64_amdfam10_asm_fastmath: 2:53 min
lame_x64_bdver1: 2:39 min
lame_x64_bdver1_asm: 2:45 min
lame_x64_bdver1_asm_fastmath: 2:33 min
lame_x64_bdver1_fastmath: 2:35 min
lame_x64_bdver1+bdver2: 2:45 min
lame_x64_bdver1+bdver2_fastmath: 2:35 min
lame_x64_bdver2_fma: absturz
lame_x64_bdver2_fma4: absturz
lame_x64_corei7-avx: 2:43 min
lame_x64_corei7-avx_fastmath: 2:37 min
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Danke für deine Mühe. Scheint so, dass GCC schon einiges an Bulldozer Optimierungen mitbringt. Wollen wir hoffen, dass der Desktop Trintiy nicht mehr allzu lange auf sich warten lässt. Mal schauen, was sich da an der Architektur getan hat.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
interessant dass der corei7-avx mit fastmath doch recht gut rennt. nur minimal langsamer auf BD wie die referenz.
Und während FMA nen abflug macht, scheint AVX zu laufen... und die corei7 builds schmecken dem BD wesentlich besser als amdfam10... könnte an der L1-Cachegröße liegen.
Und während FMA nen abflug macht, scheint AVX zu laufen... und die corei7 builds schmecken dem BD wesentlich besser als amdfam10... könnte an der L1-Cachegröße liegen.
Opteron
Redaktion
☆☆☆☆☆☆
HMm, was ist das:
http://www.heise.de/ct/artikel/Prozessorgefluester-1586587.htmlUnd wer weiß, vielleicht wartet auch hier noch die ein oder andere Testhardware im Verborgenen, um sich mit einem geheimen MSR-Befehl und dem nicht mehr so geheimen AMD-Key (0x9c5a203a) freischalten zu lassen. Womöglich gibt’s ja den offiziell erst für Steamroller vorgesehenen Radix-8-Hardware-Divider testweise schon im Piledriver …
Dr@
Grand Admiral Special
- Mitglied seit
- 19.05.2009
- Beiträge
- 12.791
- Renomée
- 4.066
- Standort
- Baden-Württemberg
- Aktuelle Projekte
- Collatz Conjecture
- Meine Systeme
- Zacate E-350 APU
- BOINC-Statistiken
- Mein Laptop
- FSC Lifebook S2110, HP Pavilion dm3-1010eg
- Prozessor
- Turion 64 MT37, Neo X2 L335, E-350
- Mainboard
- E35M1-I DELUXE
- Speicher
- 2x1 GiB DDR-333, 2x2 GiB DDR2-800, 2x2 GiB DDR3-1333
- Grafikprozessor
- RADEON XPRESS 200m, HD 3200, HD 4330, HD 6310
- Display
- 13,3", 13,3" , Dell UltraSharp U2311H
- HDD
- 100 GB, 320 GB, 120 GB +500 GB
- Optisches Laufwerk
- DVD-Brenner
- Betriebssystem
- WinXP SP3, Vista SP2, Win7 SP1 64-bit
- Webbrowser
- Firefox 13
Ich habe es nicht überprüft, aber könnte es da nicht um diesen ach so geheimen Debug-Modus der AMD-Prozessoren gehen?
Opteron
Redaktion
☆☆☆☆☆☆
Ja, sieht so aus, hier ein alter Thread:Ich habe es nicht überprüft, aber könnte es da nicht um diesen ach so geheimen Debug-Modus der AMD-Prozessoren gehen?
http://www.planet3dnow.de/vbulletin/showthread.php?t=388194
(hab ich damals wohl übersehen).
Vielleicht interessiert's wem
Understanding the Bulldozer Architecture through the LINPACK Benchmark
http://insidehpc.com/2012/06/26/und...r-architecture-through-the-linpack-benchmark/
Understanding the Bulldozer Architecture through the LINPACK Benchmark
http://insidehpc.com/2012/06/26/und...r-architecture-through-the-linpack-benchmark/
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Im Grunde keine neue Erkenntnis. Ohne FMA läuft die FPU nur mit halber Kraft.
Mich würde viel eher interessieren, ob die Implementierung eines FMAC Rechenwerkes ohne Latenzverlust möglich ist, wo bei Bedarf trotzdem MUL und ADD parallel ausgeführt werden können. Bei Bulldozer kann ja nur eines von beiden ausgeführt werden.
Mich würde viel eher interessieren, ob die Implementierung eines FMAC Rechenwerkes ohne Latenzverlust möglich ist, wo bei Bedarf trotzdem MUL und ADD parallel ausgeführt werden können. Bei Bulldozer kann ja nur eines von beiden ausgeführt werden.
Opteron
Redaktion
☆☆☆☆☆☆
Jo, v.a. wird auch das Frontend um die Hälfte entlastet, da auch nur eine x86-Instruktion anfällt anstatt zwei, bestehend aus MUL+ADD.Im Grunde keine neue Erkenntnis. Ohne FMA läuft die FPU nur mit halber Kraft.
Das hatten wir doch mal vor Jahr und Tag, such mal nach bridged FMA oder so, da hat Dresdenboy mal Patente gefunden.Mich würde viel eher interessieren, ob die Implementierung eines FMAC Rechenwerkes ohne Latenzverlust möglich ist, wo bei Bedarf trotzdem MUL und ADD parallel ausgeführt werden können. Bei Bulldozer kann ja nur eines von beiden ausgeführt werden.
Edit: Schnelle Google suche:
http://www.otc.utexas.edu/ATdisplay.jsp?id=337&m=Comp
http://www.powershow.com/view/10f52...h_Fused_MultiplyAdders_flash_ppt_presentation
Dresdenboy
Redaktion
☆☆☆☆☆☆
Im Grunde keine neue Erkenntnis. Ohne FMA läuft die FPU nur mit halber Kraft.
Mich würde viel eher interessieren, ob die Implementierung eines FMAC Rechenwerkes ohne Latenzverlust möglich ist, wo bei Bedarf trotzdem MUL und ADD parallel ausgeführt werden können. Bei Bulldozer kann ja nur eines von beiden ausgeführt werden.
Vielleicht hilft dir da auch Eric Quinnell's Meinung in einem RWT-Thread weiter:
http://www.realworldtech.com/beta/forums/index.cfm?action=detail&id=117803&threadid=117688&roomid=2
Er arbeitete im Wesentlichen an den BD FMAs mit u. hat auch die erwähnten Three-Path und Bridged-FMAs (mit-)entworfen/entwickelt.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Dann wirds zeit dass so ein Teil mal in realem Silizium ankommt.
Ob das für Steamroller langt?
Irgendwie scheint es AMD kaum zu stören dass BD derart "schwach" in FP-code abschneidet... Dass die FPU shared ist war ja eingeplant und dass sie bei nicht-FMA-Code auch nur den halben Durchsatz liefert dürfte ebenso bekannt gewesen sein. Also was ist los?
Ich meine, es war doch auch abzusehen dass Intel nicht grade die FPU kastrieren wird bei SB und IB... also frage ich mich ernsthaft warum man nicht gleich eine Bridged-FPU o.ä. eingebaut hat?
Läuft das nach dem Motto "das schafft der Decoder sowieso nicht, daher überflüssig" oder wie?
Ist eigetnlich schon irgnedwas durchgesickert über die DIE-Größe bei vishera? - Wir haben uns doch bei den bisherigen Orochis so darüber gewundert warum das Die vergleichsweise groß ist gegenüber einem Sandy Bridge, und auf mangelnde Flächenoptimierung geschoben. Da sie die selbige aber jetzt für Trinity durchziehen mussten, wäre es ja auch nicht ganz abwegig dass sie da für Rev C von Orochi auch ein bisschen Fläche gespart haben damit sich die Fertigung besser lohnt...
Ich bin ja eigentlich keiner der üblichen schwarzmaler, aber verglichen mit SB, braucht Zambezi mehr fläche, mehr strom und liefert nur in Ausnahmefällen direkt konkurrenzfähige Performance ab....
Wenn wir dann noch veranschlagen dass 1 BD-Modul trotz CMT-Konzept zur flächeneinsparung immernoch nicht wirklich kompakter ist als ein SB-Kern, der ebenfalls 2 Threads beherrscht und dabei aber deutlich mehr FP Ressourcen zur Verfügung zu haben scheint, frage ich mich ernsthaft was AMD mit der ganzen Fläche angefnagen hat. Wenn Piledriver kompakter ist ok, mangelnde Flächenoptimierung im ersten Wurf, akzeptiert. Aber wenn Vishera immernoch so "fett" ist... müssen die ganzen Transistoren wohl in nicht dokumentierte NSA-Super-Spionage-Schatkreise geflossen sein
Ob das für Steamroller langt?
Irgendwie scheint es AMD kaum zu stören dass BD derart "schwach" in FP-code abschneidet... Dass die FPU shared ist war ja eingeplant und dass sie bei nicht-FMA-Code auch nur den halben Durchsatz liefert dürfte ebenso bekannt gewesen sein. Also was ist los?
Ich meine, es war doch auch abzusehen dass Intel nicht grade die FPU kastrieren wird bei SB und IB... also frage ich mich ernsthaft warum man nicht gleich eine Bridged-FPU o.ä. eingebaut hat?
Läuft das nach dem Motto "das schafft der Decoder sowieso nicht, daher überflüssig" oder wie?
Ist eigetnlich schon irgnedwas durchgesickert über die DIE-Größe bei vishera? - Wir haben uns doch bei den bisherigen Orochis so darüber gewundert warum das Die vergleichsweise groß ist gegenüber einem Sandy Bridge, und auf mangelnde Flächenoptimierung geschoben. Da sie die selbige aber jetzt für Trinity durchziehen mussten, wäre es ja auch nicht ganz abwegig dass sie da für Rev C von Orochi auch ein bisschen Fläche gespart haben damit sich die Fertigung besser lohnt...
Ich bin ja eigentlich keiner der üblichen schwarzmaler, aber verglichen mit SB, braucht Zambezi mehr fläche, mehr strom und liefert nur in Ausnahmefällen direkt konkurrenzfähige Performance ab....
Wenn wir dann noch veranschlagen dass 1 BD-Modul trotz CMT-Konzept zur flächeneinsparung immernoch nicht wirklich kompakter ist als ein SB-Kern, der ebenfalls 2 Threads beherrscht und dabei aber deutlich mehr FP Ressourcen zur Verfügung zu haben scheint, frage ich mich ernsthaft was AMD mit der ganzen Fläche angefnagen hat. Wenn Piledriver kompakter ist ok, mangelnde Flächenoptimierung im ersten Wurf, akzeptiert. Aber wenn Vishera immernoch so "fett" ist... müssen die ganzen Transistoren wohl in nicht dokumentierte NSA-Super-Spionage-Schatkreise geflossen sein
Wo sieht man denn das Bulldozer in FP-Code besonders schlecht aussieht?
Sowohl beim Rendering (z.b. Cinebench) und theoretischen Tests (Sandra Benches) liegt der FX-8150 relativ knapp hinter dem i7-2600K. Ist ja nicht so als würde das in INT-Code besser aussehen.
Die Bridged FMA Unit, wurde ja nur dazu entworfen um möglichst wenig Overhead in der Schaltung zu erzeugen und so die Latenzen auch möglichst klein zu halten. Da die dazugehörige Studie von AMD schon etwas älter ist gehe ich mal davon aus die FMA Einheit in Bulldozer auch so implementiert wurde oder hat sich AMD anderweitig dazu geäußert?
Ebenfalls würde ich nicht unbedingt sagen, dass die aktuellen core-i Prozessoren mehr FP-Ressourchen haben. Diese liegen bei 1x256bit add und 1x256bit mul. Bei Bulldozer sind es prinzipiell 2x128bit add und 2x128bit mul mit Option auf FMA.
Wenn nur normaler SSE Code genutzt wird kann man bei beiden Architekturen auf 2 128bit Pipelines zurückgreifen, bei Bulldozer aber sogar mit mehr Freiheiten bezüglich add und mul Befehlen.
Das relativ gesehen schlechte abschneiden hat da durchaus andere Probleme und lässt sich nicht zwangsweise auf irgendwelche Ressourcen in der Architektur zurückführen.
Das dem Design die wahrscheinlich noch nicht sehr ausgeprägten Flächenoptimierungen dann noch zusätzlich zu schaffen machen ist natürlich ein weiteres Problem. Aber das wird wohl auch ein eher kontinuierlicher Fortschritt mit der Zeit werden und nicht von heute auf morgen mit dem nächsten Design plötzliche perfektioniert.
Sowohl beim Rendering (z.b. Cinebench) und theoretischen Tests (Sandra Benches) liegt der FX-8150 relativ knapp hinter dem i7-2600K. Ist ja nicht so als würde das in INT-Code besser aussehen.
Die Bridged FMA Unit, wurde ja nur dazu entworfen um möglichst wenig Overhead in der Schaltung zu erzeugen und so die Latenzen auch möglichst klein zu halten. Da die dazugehörige Studie von AMD schon etwas älter ist gehe ich mal davon aus die FMA Einheit in Bulldozer auch so implementiert wurde oder hat sich AMD anderweitig dazu geäußert?
Ebenfalls würde ich nicht unbedingt sagen, dass die aktuellen core-i Prozessoren mehr FP-Ressourchen haben. Diese liegen bei 1x256bit add und 1x256bit mul. Bei Bulldozer sind es prinzipiell 2x128bit add und 2x128bit mul mit Option auf FMA.
Wenn nur normaler SSE Code genutzt wird kann man bei beiden Architekturen auf 2 128bit Pipelines zurückgreifen, bei Bulldozer aber sogar mit mehr Freiheiten bezüglich add und mul Befehlen.
Das relativ gesehen schlechte abschneiden hat da durchaus andere Probleme und lässt sich nicht zwangsweise auf irgendwelche Ressourcen in der Architektur zurückführen.
Das dem Design die wahrscheinlich noch nicht sehr ausgeprägten Flächenoptimierungen dann noch zusätzlich zu schaffen machen ist natürlich ein weiteres Problem. Aber das wird wohl auch ein eher kontinuierlicher Fortschritt mit der Zeit werden und nicht von heute auf morgen mit dem nächsten Design plötzliche perfektioniert.
Nicht nur die FPU Leistung ist schwach, sondern auch die Integer Leistung!Irgendwie scheint es AMD kaum zu stören dass BD derart "schwach" in FP-code abschneidet... Dass die FPU shared ist war ja eingeplant und dass sie bei nicht-FMA-Code auch nur den halben Durchsatz liefert dürfte ebenso bekannt gewesen sein. Also was ist los?
Ich meine, es war doch auch abzusehen dass Intel nicht grade die FPU kastrieren wird bei SB und IB... also frage ich mich ernsthaft warum man nicht gleich eine Bridged-FPU o.ä. eingebaut hat?
Läuft das nach dem Motto "das schafft der Decoder sowieso nicht, daher überflüssig" oder wie?
Interlagos hat 33% mehr Threads als Magny Cours ist aber kaum schneller, das gleiche gilt auch für den FX vs. Thuban (Bezogen ohne die neuen SSE/AVX/FMA Befehle.)
Würde mich nicht wundern wenn Piledriver wieder in richtung Thuban DIE Space geht.Ist eigetnlich schon irgnedwas durchgesickert über die DIE-Größe bei vishera?
Exakt! http://www.ww.anandtech.com/show/5057/the-bulldozer-aftermath-delving-even-deeper/6Ich bin ja eigentlich keiner der üblichen schwarzmaler, aber verglichen mit SB, braucht Zambezi mehr fläche, mehr strom und liefert nur in Ausnahmefällen direkt konkurrenzfähige Performance ab....
Und sobald AMD dann genügend Piledriver DIEs ausliefern kann gibt es bereits den Xeon E5 Nachfolger auf 22nm IB Basis, dann wirds bzgl. Leistungsaufnahme noch düster für AMD!
Ich frage mich auch schon die ganze Zeit warum das DIE so groß geworden ist, man bedenke das Bulldozer im vergleich zum K10 (Deneb/Shanghai) doch nur noch halb soviele FPU & Decoder Einheiten hat...Wenn wir dann noch veranschlagen dass 1 BD-Modul trotz CMT-Konzept zur flächeneinsparung immernoch nicht wirklich kompakter ist als ein SB-Kern, der ebenfalls 2 Threads beherrscht und dabei aber deutlich mehr FP Ressourcen zur Verfügung zu haben scheint, frage ich mich ernsthaft was AMD mit der ganzen Fläche angefnagen hat. Wenn Piledriver kompakter ist ok, mangelnde Flächenoptimierung im ersten Wurf, akzeptiert. Aber wenn Vishera immernoch so "fett" ist... müssen die ganzen Transistoren wohl in nicht dokumentierte NSA-Super-Spionage-Schatkreise geflossen sein
Shanghai
64KB L1D
3 ALU / 3 AGU
2 Kerne = 2 Decoder
2 Kerne = 2 FPUs
Bulldozer
16KB L1D
2 ALU + 2 AGU
2 Kerne = 1 Decoder
2 Kerne = 1 FPU
bbott
Grand Admiral Special
- Mitglied seit
- 11.11.2001
- Beiträge
- 4.363
- Renomée
- 60
- Mein Laptop
- HP Compaq 8510p
- Prozessor
- AMD FX-8370
- Mainboard
- Asus M5A99X
- Kühlung
- Corsair H60
- Speicher
- 16GB DDR3-1866 Crucial
- Grafikprozessor
- Sapphire HD5770
- Display
- 4k 27" DELL
- SSD
- Samsung Evo 850
- HDD
- 2x Seagate 7200.12
- Optisches Laufwerk
- Pioneer, Plextor
- Soundkarte
- Creative X-Fi Xtreme Music
- Gehäuse
- Silverstone TJ-02S
- Netzteil
- Enermax 450W
- Betriebssystem
- Windows 7
Würde mich nicht wundern wenn Piledriver wieder in richtung Thuban DIE Space geht.
- Llano 5,17 Mio/mm²
- Trinity 5,30 Mio/mm²
- Orochi 3,81 Mio/mm²
Da Trinity eine höhere Packdichte als Llano schafft (und das obwohl das 4D-VLIW eine niedrigere Packdichte hat als 5D-VLIW) sollte Vishera diese auch steigern können.
Shanghai
64KB L1D
3 ALU / 3 AGU
2 Kerne = 2 Decoder
2 Kerne = 2 FPUs
Bulldozer
16KB L1D
2 ALU + 2 AGU
2 Kerne = 1 Decoder
2 Kerne = 1 FPU
Was ist mit:
- 8MB (4x2MB) L2 statt 3MB (6x512KB)
- AVX, XOP, FMA4, SSE4.x, AES usw.
- L3 hat 8MB statt 6MB
Ähnliche Themen
- Antworten
- 1
- Aufrufe
- 290
- Antworten
- 1
- Aufrufe
- 219
- Antworten
- 1
- Aufrufe
- 478
- Antworten
- 0
- Aufrufe
- 849