Optimierung der Collatz-WUs

Mit erhöhter sieve_size konnte ich auf GTX1060 und GT730 gegenüber den Empfehlungen im anderen Thread noch einiges herausholen:

GTX1060 (gemittelt über viele dutzend WUs)
ALT: 837 Sekunden, 29227 Credits
NEU: 780 Sekunden, 28030 Credits
Laufzeitreduzierung: ~7%

GT730 (jeweils nur einige WUs)
ALT: 14711 Sekunden, 30806 Credits
NEU: 13708 Sekunden, 28842 Credits
Laufzeitreduzierung: ~7%

verbose=1
kernels_per_reduction=48
threads=8
lut_size=17
sleep=1
reduce_cpu=0
sieve_size=30


lut_size größer 17 wurde eher langsamer, threads 6 oder 10 ebenso, sieve_size=31 ergibt computation error, kernels_per_reduction auf 24 oder 56 ohne Effekt...
Schade dass die Credits mit den Laufzeiten sinken, dadurch werden die Gewinne größtenteils wieder aufgefressen.
 
Um zu sehen was meine Neuerwerbung bei Collatz zu Stande bringt, habe ich mir diesen Thread angesehen.

Ist der Client jetzt soweit optimiert, dass diese Spielerei nicht mehr erforderlich ist?
 
Ich meine es war ein FB Race in diesem Jahr, wo das nochmal auf den Tisch kam. Die Optimierungen bringen einen Zeitgewinn, reduzieren gleichzeitig aber die Credits. Unterm Strich war es mit Optimierungen aber immer noch besser.
 
Hi torsam, bei mir sieht das so aus (VII):

verbose=1
kernels_per_reduction=64
threads=8
lut_size=18
sieve_size=30
sleep=1
cache_sieve=1
reducecpu=0

Laufzeit unter 6 Minuten bei 1200MHz. Credits liegen so zwischen 29000-30000.
(alles gute noch nachträglich zum Geburtstag ! ;) )
 
Zuletzt bearbeitet:
Was ich bis jetzt eingetragen habe:

verbose=1
items_per_kernel=20
kernels_per_reduction=64
threads=8
sleep=1
build_options=-Werror
reduce_cpu=0
sieve_size=30

Ok, danke. Dann füge ich noch die lut_size=18 und cache_sieve=1 ein.

Im Augenblick liefert die VII alle 9:15 Minuten 2 WUs ab.

Bei 1.200 MHz GPU-Takt? Ich habe sie gerade per amdgpu-utils auf ~ 1.900 MHz laufen.
Den VRAM-Takt fasse ich mal besser nicht an.

Vielen Dank für die Glückwünsche. Ich freue mich schon aufs Grillen. :)

--- update ---

Wow, mein lieber Kukuschinski. Das hat doch glatt nochmal 2 Minuten gebracht.
Sind Sie beeindruckt? Wir sind beeindruckt! :D
 
Zuletzt bearbeitet:
Gerade bin ich mit der Vega64 am rumspielen.

Auf jeden Fall reicht hier eine WU, um die GPU-Auslastung bei 100% zu halten.
Mit 2 WUs und den gleichen Einstellungen wie für die VII, steigt die Grafikkarte aus.

Lute_size=17, GPU-Takt bei 1.580 MHz = 5:30 Minuten. amdgpu-utils sagt: 330 Watt
Lute_size=18, GPU-Takt bei 1.570 MHz = 5:10 Minuten. amdgpu-utils sagt: 345 Watt

Der Wert 18 erzeugt nur mehr Wärme. Punkte sind in etwas gleich.
 
Zuletzt bearbeitet:
Die lut_size (nicht lute_size) beschreibt die Ausnutzung des L2 Caches.
Bei 18 hätte laut Berechnung ( (2^18)*8/1024 ) 2048 KB.

19 = 4096
18 = 2048
17 = 1024
16 = 512
15 = 256

Wenn man nun z.B eine R9 380 mit nem Antigua-Chip rechnen läst, der nur 768Kb L2 Cache hat, wäre eine lut_size=17 zu groß. Also wählt man 16.
Wie sich da zwei WUs gleichzeitig den Cache teilen, keine Ahnung.
 
Vega64 und Radeon VII haben beide einen 4.096 kB großen L2 Cache.
Muß ich ausprobieren. Bin jetzt aber die nächsten Tage erstmal in Braunschweig.
 
Ja, lut_size hatte ich auch mal testweise auf 19 gesetzt, schon ne Weile her aber wenn ich mich richtig errinnere, hat das nich mehr viel gebracht. Kann ja sein, das es bei der Vega64 anders ist.
 
Da ich mich wunderte warum die Berechnungszeiten so schwanken, habe ich bei den Linux Systemen 2 verschieden Anwendungen und damit Files gefunden
Collatz Sieve v1.40 (opencl_ati_gpu) x86_64-pc-linux-gnu
collatz_sieve_1.40_x86_64-pc-linux-gnu__opencl_ati_gpu.config

Collatz Sieve v1.40 (opencl_ati) x86_64-pc-linux-gnu
collatz_sieve_1.40_x86_64-pc-linux-gnu__opencl_ati.config

Mal so als Tipp in beide die Optimierungen reinschreiben... muss ich noch bei mind. fünf System tun, VPN läuft noch nicht, also muss ich das Local machen.
*admin*
 
Zuletzt bearbeitet:
Zurück
Oben Unten