SuperPi goes AVX -> y-cruncher

@FalconFly
Naja, der Speicher skaliert schon gut, wenn genug Einheiten da sind, die mit der Bandbreite was Anfangen können:
Die entscheidende Frage lautet: Kann y-Cruncher etwas mit RamBandbreite (Dual oder Quad und Freq.) anfangen oder nicht?, Da nüßtzt auch ein Aida nix, um diese Frage zu klären, oder? :)
 
Die entscheidende Frage lautet: Kann y-Cruncher etwas mit RamBandbreite (Dual oder Quad und Freq.) anfangen oder nicht?, Da nüßtzt auch ein Aida nix, um diese Frage zu klären, oder?

Y-Cruncher soll eigentlich sehr speicherlastig sein, soweit ich das auf seiner Seite gelesen habe, aber da War es immer im Bezug zu der HDD Bandbreite und ¨so viele Stellen, dass PI nicht mehr in den RAM passt, ...
Probieren geht über studieren, du hast doch ein i7 3930k damit könntest du dir mindestens dazu selber eine Antwort geben. Oder nicht?
 
Da ich noch nicht schlafen kann, hab ich mal mit angezogener RAM-Handbremse gebenched : DDR3-1866 Dual Channel @ -> DDR3-800 Single Channel *buck*

ycrunch-Slow.gif

Dafuer, dass nur noch ca. ~35% der realen Speicherbandbreite vorhanden war, zeigt sich der Bench hier relativ unbeeindruckt.

Pi ~490s @ DDR3-1866DC
Pi ~581s @ DDR3-800SC
Lediglich 18.6% langsamer am Ende trotz maximaler RAM-Handbremse.

Scheint also zum Grossteil an der CPU zu haengen, Speicherbandbreite zumindest beim FX-6300 eher sekundaer.
 
Zuletzt bearbeitet:
@FalconFly
Netter Vergleich, dachte nicht das es so wenig ausmacht.
Ich gehe mal davon aus, du hast den unganged Mode genutzt? Damit wird ein Riegel mit 2x 64Bit angesprochen. (Ganged 1x 128Bit)
 
@FalconFly
Netter Vergleich, dachte nicht das es so wenig ausmacht.
Ich gehe mal davon aus, du hast den unganged Mode genutzt? Damit wird ein Riegel mit 2x 64Bit angesprochen. (Ganged 1x 128Bit)

Das kann ich leider nicht 100%ig genau sagen, da das UEFI meines AsRock 990FX Extreme3 diese Option nicht explizit anbietet und da etwas kryptisch arbeitet.
Bank Interleaving und Channel Interleaving waren in RAM-Menu manuell disabled, mehr konnte ich diesbez. nicht einstellen.

Auch CPU-Z 1.69 schweigt sich zu diesem Betriebszustand aus, kann's also auch nicht anders auslesen (wuesste jetzt ad-hoc nicht, mit welchem Tool das geht).

PS.
Ich haette auch erwartet, dass die RAM-Bandbreite einen deutlich groesseren Einfluss hat. War selbst ziemlich ueberrascht, als ich dieses Ergebnis sah.
 
Zuletzt bearbeitet:
@FalconFly
Wenn die Option nicht im UEFI vorhanden ist, sollte der unganged Mode aktiv sein. (AMD empfehlt das zumindest)
Mit dem Programm sollte es sich noch auslesen lassen: http://rh-software.com/

siv64x_overviewfwsd3.jpg


siv64x_mem48sbk.jpg


Bei mir sind nur 2x 4GByte verbaut, nicht 4x 2GByte.
 
Ganged/Unganged: Habe ich heute getestet mit FX-8120@3,6GHz, Gigabyte GA-990XA-UD3, 4x4GB/1600, XOP 0-1-7:
Unganged:
Code:
Processor(s):          AMD FX(tm)-8120 Eight-Core Processor 
Logical Cores:         8
Physical Memory:       17,176,977,408 bytes  ( 16.0 GB )
CPU Frequency:         3,600,269,119 Hz

Program Version:       0.6.4 Build 9424 (x64 XOP - Windows ~ Miyu)
Constant:              Pi
Algorithm:             Chudnovsky Formula
Decimal Digits:        2,500,000,000
Hexadecimal Digits:    Disabled
Threading Mode:        8 threads
Computation Mode:      Ram Only
Working Memory:        11,542,495,056 bytes  ( 10.7 GB )
Logical Disk Usage:    0 bytes  ( 0 bytes )

Start Date:            Wed Apr 09 15:47:10 2014
End Date:              Wed Apr 09 16:06:23 2014

Computation Time:      1083.251 seconds
Total Time:            1152.746 seconds

CPU Utilization:           764.331 %
Multi-core Efficiency:     95.541 %
Ganged:
Code:
Processor(s):          AMD FX(tm)-8120 Eight-Core Processor 
Logical Cores:         8
Physical Memory:       17,176,977,408 bytes  ( 16.0 GB )
CPU Frequency:         3,600,164,447 Hz

Program Version:       0.6.4 Build 9424 (x64 XOP - Windows ~ Miyu)
Constant:              Pi
Algorithm:             Chudnovsky Formula
Decimal Digits:        2,500,000,000
Hexadecimal Digits:    Disabled
Threading Mode:        8 threads
Computation Mode:      Ram Only
Working Memory:        11,542,495,056 bytes  ( 10.7 GB )
Logical Disk Usage:    0 bytes  ( 0 bytes )

Start Date:            Wed Apr 09 17:45:50 2014
End Date:              Wed Apr 09 18:05:00 2014

Computation Time:      1080.129 seconds
Total Time:            1150.342 seconds

CPU Utilization:           765.098 %
Multi-core Efficiency:     95.637 %
Wie man sieht, sieht man nichts - kein Unterschied.
 
@Helle53
Danke, so ähnlich geht es meinem System auch: Hab die Option "DTC ungange Mode" im UEFI "disabled" aber es hat keine Auswirkung auf die Laufzeit vom Benchmark. *noahnung*

Um den Threadtitel alle ehre zu machen, SuperPi 32M vs y-cruncher 32M (AVX_0 - 0 - 0 - 25)

superpi_vs_avx_singleg0uff.jpg


15 Minuten vs 54 Sekunden. 8)
 
In der 0.6.5-er Version ist jetzt auch AVX2/FMA3 vertreten:
Code:
Processor(s):          Intel(R) Core(TM) i7-4770K CPU @ 3.50GHz
Logical Cores:         8
Physical Memory:       17,115,201,536 bytes  ( 16.0 GiB )
CPU Frequency:         3,506,145,055 Hz (s.u.!)

Program Version:       0.6.5 Build 9442 (x64 AVX2 - Windows ~ Airi)
Constant:              Pi
Algorithm:             Chudnovsky Formula
Decimal Digits:        1,000,000,000
Hexadecimal Digits:    Disabled
Threading Mode:        8 threads
Computation Mode:      Ram Only
Working Memory:        4,944,673,224 bytes  ( 4.60 GiB )
Logical Disk Usage:    0 bytes  ( 0 bytes )

Start Date:            Wed Jun 25 22:48:49 2014
End Date:              Wed Jun 25 22:52:33 2014

Computation Time:      210.811 seconds
Total Time:            223.602 seconds

CPU Utilization:           758.911 %
Multi-core Efficiency:     94.864 %
Hinweis: Alle Cores liefen mit 4.0 GHz!
 
FalconFly schrieb:
Das kann ich leider nicht 100%ig genau sagen, da das UEFI meines AsRock 990FX Extreme3 diese Option nicht explizit anbietet und da etwas kryptisch arbeitet.
Bank Interleaving und Channel Interleaving waren in RAM-Menu manuell disabled, mehr konnte ich diesbez. nicht einstellen.
Soweit mir bekannt, lässt sich die Betriebsart bei vielen (AMD-(?))ASRock-Boards nicht wählen. Ich meine mich erinnern zu können, dass die Ausgabe "Dual-Channel"/"Single-Channel" im Startfenster des UEFI sich auf die Betriebsart (ganged/unganged) bezieht.

Die Interleavings sind bei mir eingeschaltet; so war es auch default. Sollte ich das deaktivieren?
 
In der 0.6.5-er Version ist jetzt auch AVX2/FMA3 vertreten:
Code:
Processor(s):          Intel(R) Core(TM) i7-4770K CPU @ 3.50GHz
Logical Cores:         8
Physical Memory:       17,115,201,536 bytes  ( 16.0 GiB )
CPU Frequency:         3,506,145,055 Hz (s.u.!)

Program Version:       0.6.5 Build 9442 (x64 AVX2 - Windows ~ Airi)
Constant:              Pi
Algorithm:             Chudnovsky Formula
Decimal Digits:        1,000,000,000
Hexadecimal Digits:    Disabled
Threading Mode:        8 threads
Computation Mode:      Ram Only
Working Memory:        4,944,673,224 bytes  ( 4.60 GiB )
Logical Disk Usage:    0 bytes  ( 0 bytes )

Start Date:            Wed Jun 25 22:48:49 2014
End Date:              Wed Jun 25 22:52:33 2014

Computation Time:      210.811 seconds
Total Time:            223.602 seconds

CPU Utilization:           758.911 %
Multi-core Efficiency:     94.864 %
Hinweis: Alle Cores liefen mit 4.0 GHz!
Krass, mit AVX2 hat dein Quadcore fast die gleiche Zeit wie mein 6Core SB-E. :o
 
Und wieder bestätigt sich das die vergleichsweise geringe Leistungsentwicklung nicht zuletzt der Stagnation im Software Bereich geschuldet ist. *stichel* ;D
Hat sich für die FX Modelle was verändert?
 
Und wieder bestätigt sich das die vergleichsweise geringe Leistungsentwicklung nicht zuletzt der Stagnation im Software Bereich geschuldet ist. *stichel* ;D
Hat sich für die FX Modelle was verändert?

Wieder einmal beweist sich, dass sich derartiger Code halt leider nunmal nur arg begrenzt auf Alltags-Software umsetzen laesst.
Dieser Pi-Algo ist aufgrund seiner riesigen Matrizen lediglich bestens fuer SIMD geeignet, ein paar Wochen handoptimierte hotloops und dann kommt man halt schon recht weit...

Schade, dass sich das auf 99.9% der sonstigen Software nicht in so einem Umfang anwenden laesst.
 
Zuletzt bearbeitet:
Und wieder bestätigt sich das die vergleichsweise geringe Leistungsentwicklung nicht zuletzt der Stagnation im Software Bereich geschuldet ist. *stichel* ;D
Hat sich für die FX Modelle was verändert?

15 Minuten vs 54 Sekunden. 8)
Basierend auf den 32M Werten, mal mit Single-Thread XOP weiter machen:
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,091,103 Hz

Program Version: 0.6.5 Build 9442 (x64 XOP - Windows ~ Miyu)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 1 threads
Computation Mode: Ram Only
Working Memory: 150,724,768 bytes ( 143 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 12:08:50 2014
End Date: Sun Jun 29 12:09:23 2014

Computation Time: 31.532 seconds
Total Time: 32.987 seconds

CPU Utilization: 99.740 %
Multi-core Efficiency: 12.467 %
Dann Multi-Thread 32M:
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,119,775 Hz

Program Version: 0.6.5 Build 9442 (x64 XOP - Windows ~ Miyu)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 157,775,536 bytes ( 150 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 10:39:44 2014
End Date: Sun Jun 29 10:39:54 2014

Computation Time: 8.919 seconds
Total Time: 10.011 seconds

CPU Utilization: 450.889 %
Multi-core Efficiency: 56.361 %
Und zuletzt noch 1000M ohne Core Parking, Energieprofil Höchstleistung:
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,104,735 Hz

Program Version: 0.6.5 Build 9442 (x64 XOP - Windows ~ Miyu)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 1,000,000,000
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 4,744,870,344 bytes ( 4.41 GiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 12:33:55 2014
End Date: Sun Jun 29 12:39:14 2014

Computation Time: 302.406 seconds
Total Time: 319.334 seconds

CPU Utilization: 768.547 %
Multi-core Efficiency: 96.068 %

Bei kleinen Daten Mengen ist XOP, FMA4 & AVX_1(28 Bit) nur ein paar Sekunden schneller bzw. SSE3 nicht wirklich langsamer. *suspect*
 
Basierend auf den 32M Werten, mal mit Single-Thread XOP weiter machen:
Dann Multi-Thread 32M:
Und zuletzt noch 1000M ohne Core Parking, Energieprofil Höchstleistung:

Bei kleinen Daten Mengen ist XOP, FMA4 & AVX_1(28 Bit) nur ein paar Sekunden schneller bzw. SSE3 nicht wirklich langsamer. *suspect*

Dein Vergleich mit 15 Minuten vs 54 Sekunden ist fehl am Platz, da es zwei unterschiedliche Verfahren sind!
 
@WindHund
Irgendwie stehe ich gerade ein wenig auf dem Schlauch....
Bei dem ersten Test lief der 32M Test auf einem Kern bei 4,7 GHz in ca. 53,6 Sekunden durch, im zweiten Test bei 4,2 GHz in ca. 33 Sekunden.
Selbst wenn man die unterschiedliche Taktfrequenz rausrechnet scheint mir die Programmversion 0.6.5 prozentual deutlich fixer zu laufen.
 
Dein Vergleich mit 15 Minuten vs 54 Sekunden ist fehl am Platz, da es zwei unterschiedliche Verfahren sind!
Ah, gut zu wissen, dann sollte das mal jemand dem Entwickler sagen, dieser empfiehlt "SuperPi size" bei der Auswahl:

y-cruncher_superpiarjk2.jpg


@WindHund
Irgendwie stehe ich gerade ein wenig auf dem Schlauch....
Bei dem ersten Test lief der 32M Test auf einem Kern bei 4,7 GHz in ca. 53,6 Sekunden durch, im zweiten Test bei 4,2 GHz in ca. 33 Sekunden.
Selbst wenn man die unterschiedliche Taktfrequenz rausrechnet scheint mir die Programmversion 0.6.5 prozentual deutlich fixer zu laufen.
Ja, die AVX.exe ist übertaktet langsamer als die XOP.exe mit Standard Takt.
Hier noch die Werter der vorherigen Version:

XOP Single Thread 32M: 32.519 seconds
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GB )
CPU Frequency: 4,214,093,695 Hz

Program Version: 0.6.4 Build 9424 (x64 XOP - Windows ~ Miyu)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 1 threads
Computation Mode: Ram Only
Working Memory: 150,724,768 bytes ( 143 MB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Mon Jun 30 16:35:44 2014
End Date: Mon Jun 30 16:36:17 2014

Computation Time: 31.067 seconds
Total Time: 32.519 seconds

CPU Utilization: 99.725 %
Multi-core Efficiency: 12.466 %

XOP Multi Thread 32M: 9.474 seconds
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GB )
CPU Frequency: 4,214,089,151 Hz

Program Version: 0.6.4 Build 9424 (x64 XOP - Windows ~ Miyu)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 157,775,536 bytes ( 150 MB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Mon Jun 30 16:38:03 2014
End Date: Mon Jun 30 16:38:12 2014

Computation Time: 8.681 seconds
Total Time: 9.474 seconds

CPU Utilization: 460.245 %
Multi-core Efficiency: 57.531 %
 
Zuletzt bearbeitet:
Ah OK, zwischen den Versionen ist bei der gleichen Feature Nutzung kein großartiger Unterschied zwischen den Versionen.
Die alten Messwerte sind einen Tick besser aber das dürfte sich innerhalb der Messtolleranz bewegen.

Womit ich nicht ganz klar gekommen war war dieser Satz:
Bei kleinen Daten Mengen ist XOP, FMA4 & AVX_1(28 Bit) nur ein paar Sekunden schneller bzw. SSE3 nicht wirklich langsamer.
Ein paar Sekunden mögen zwar nicht viel klingen aber wenn die Messung selbst nur wenige Sekunden dauert ist der prozentuale Unterschied um so höher und dieser gibt letztendlich die Leistungssteigerung an.
 
Zuletzt bearbeitet:
@sompe
Ok, ich glaube das ist auch etwas konfus formuliert! *buck*
Hier mal die möglichen .exe Dateien:

x86 SSE3.exe MT 32M:
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,103,295 Hz

Program Version: 0.6.5 Build 9442 (x86 SSE3 - Windows)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 214,455,572 bytes ( 204 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 10:33:26 2014
End Date: Sun Jun 29 10:33:45 2014

Computation Time: 17.932 seconds
Total Time: 19.092 seconds

CPU Utilization: 314.049 %
Multi-core Efficiency: 39.256 %
x64 SSE3 ~ Kasumi.exe MT 32M
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,105,535 Hz

Program Version: 0.6.5 Build 9442 (x64 SSE3 - Windows ~ Kasumi)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 173,442,464 bytes ( 165 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 10:37:15 2014
End Date: Sun Jun 29 10:37:24 2014

Computation Time: 8.327 seconds
Total Time: 8.996 seconds

CPU Utilization: 592.582 %
Multi-core Efficiency: 74.073 %
x64 SSE4.1 ~ Ushio.exe MT 32M
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,101,055 Hz

Program Version: 0.6.5 Build 9442 (x64 SSE4.1 - Windows ~ Ushio)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 155,412,384 bytes ( 148 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 10:38:07 2014
End Date: Sun Jun 29 10:38:18 2014

Computation Time: 9.415 seconds
Total Time: 10.452 seconds

CPU Utilization: 498.221 %
Multi-core Efficiency: 62.278 %
x64 AVX ~ Hina.exe MT 32M
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,109,631 Hz

Program Version: 0.6.5 Build 9442 (x64 AVX - Windows ~ Hina)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 33,554,432
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 157,729,712 bytes ( 150 MiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 10:38:57 2014
End Date: Sun Jun 29 10:39:10 2014

Computation Time: 12.340 seconds
Total Time: 13.090 seconds

CPU Utilization: 577.235 %
Multi-core Efficiency: 72.154 %
x64 AVX2 ~ Airi.exe
läuft bis zur Auswahl Single Thread oder Multithread dann stürzt das Programm ab.
Wenn man nach den Werten geht, ist SSE3 am schnellsten bei 32M Multithreaded, aber wie schaut es mit 1000M aus:
Processor(s): AMD FX(tm)-8350 Eight-Core Processor
Logical Cores: 8
Physical Memory: 8,484,339,712 bytes ( 8.00 GiB )
CPU Frequency: 4,214,106,815 Hz

Program Version: 0.6.5 Build 9442 (x64 SSE3 - Windows ~ Kasumi)
Constant: Pi
Algorithm: Chudnovsky Formula
Decimal Digits: 1,000,000,000
Hexadecimal Digits: Disabled
Threading Mode: 8 threads
Computation Mode: Ram Only
Working Memory: 4,739,714,888 bytes ( 4.41 GiB )
Logical Disk Usage: 0 bytes ( 0 bytes )

Start Date: Sun Jun 29 11:04:01 2014
End Date: Sun Jun 29 11:10:09 2014

Computation Time: 348.719 seconds
Total Time: 367.964 seconds

CPU Utilization: 752.164 %
Multi-core Efficiency: 94.020 %

Die XOP.exe nutzt SSE4.1, AVX1, FMA4 & XOP das lässt sich bei den "Advanced Options" unter "Compiler Options" nachschauen. [5-2]

MfG
 
Besten Dank für die genaue Umschreibung. :)
Wes ich aber besonders eigensinnig empfinde ist das der x64 SSE3 Test die Zeit des x86 SSE3 Tests mehr als halbiert.
Ist die x86 Variante nur schlecht optimiert oder fließen bei der 64 Bit Variante auch noch andere Features abseits der 64 Bit Geschichte mit ein?

Allerdings is der Sprung bei 1000M von 368 mit x64 SSE3 auf 319 im XOP Test auch nicht zu verachten.
Das ist immerhin grob geschätzt irgendwas um die 15% schneller.
 
Habe mal angefangen, einen Wrapper für den y-cruncher 0.6.5 zu schreiben (AMD und Intel, Windows 64-Bit). Hier 2 Screenshots:
Cruncher0.PNG

Cruncher1.PNG

Das Programm ist hier zu finden (muss dann im selben Ordner liegen wie die Binaries):
http://www.mdcc-fun.de/k.helbing/Bilder/y-cruncher/Wrapper_y_cruncher.zip
Für Intels SB/IB/Haswell wird versucht, die korrekte CPU-Frequenz zu ermitteln (scheint für AMD o.K. zu sein).
Zum Thema: Man beachte die Zeit für AVX2 für den i7-4790K!
 
Zurück
Oben Unten