AMD Radeon "Navi" OpenCL Bug Makes it Unfit for SETI@Home

Aber wenn SETI die Ergebnisse zweier Navi-Karten als Valide erkennt, scheint doch da in der Erkennung was nicht zu stimmen, oder?
Es wird ja nichts erkannt, sondern es wird nur das Ergebnis verglichen.
Bei einem reproduzierbaren, immer gleichen Fehler kommt halt das Gleiche raus.

Aber das Projekt hätte ganz einfach die Möglichkeit, den Fehler stark einzuschränken: Sobald es eine Nicht-Übereinstimmung gibt, wird aktuell die WU nur 1x neu rausgeschickt. Idealerweise sollte sie dann gleich 2-3x neu rausgehen.
 
Die beiden oben Genannten User hatte ich auch schon vor einigen Tagen mal angeschrieben
 
Soll ich mal ein paar WUs durchlaufen lassen auf der 5700XT?
 
Ja Fehler produziere ich wissentlich nicht gerne, dachte nur im an irgendwelche Fehlermeldungen zu kommen.
 
Es gibt ja keine Fehlermeldung. Die WUs werden normal berechnet und abgeliefert. Erst beim Validieren fällt dann das falsche Ergebnis auf.
 
Es wäre sinnvoll mal das Lunatics Bench tool laufen zu lassen und speziell mit VHAR tasts zu testen.

Hat da jemand Erfahrung damit ?

Ich habe leider keine Navi GPU sonst würde ich das selbst testen.

Gruß
Mike
 
eratte macht das bestimmt gerne
 
Hier ist z.B. eine

Code:
<core_client_version>7.14.2</core_client_version>
<![CDATA[
<stderr_txt>
Running on device number: 0
Priority of worker thread raised successfully
Priority of process adjusted successfully, below normal priority class used
OpenCL platform detected: Advanced Micro Devices, Inc.
BOINC assigns device 0
0 slot of 64 used for this instance
Info: BOINC provided OpenCL device ID used
Info: CPU affinity mask used: 1; system mask is ff

Build features: SETI8	Non-graphics	OpenCL	USE_OPENCL_HD5xxx	OCL_ZERO_COPY	SIGNALS_ON_GPU	OCL_CHIRP3	FFTW	AMD specific	USE_SSE2	x86	
     CPUID: Intel(R) Core(TM) i7-4790K CPU @ 4.00GHz 

     Cache: L1=64K L2=256K

CPU features: FPU TSC PAE CMPXCHG8B APIC SYSENTER MTRR CMOV/CCMP MMX FXSAVE/FXRSTOR SSE SSE2 HT SSE3 SSSE3 FMA3 SSE4.1 SSE4.2 AVX 
OpenCL-kernels filename : MultiBeam_Kernels_r3584.cl 
ar=0.015965  NumCfft=97647  NumGauss=0  NumPulse=27467003008  NumTriplet=40413101472
Currently allocated 201 MB for GPU buffers
In v_BaseLineSmooth: NumDataPoints=1048576, BoxCarLength=8192, NumPointsInChunk=32768

Windows optimized setiathome_v8 application
Based on Intel, Core 2-optimized v8-nographics V5.13 by Alex Kan
SSE2xj Win32 Build 3584 , Ported by : Raistmer, JDWhale

SETI8 update by Raistmer

OpenCL version by Raistmer, r3584

AMD HD5 version by Raistmer

Number of OpenCL platforms:				 1


 OpenCL Platform Name:					 AMD Accelerated Parallel Processing
Number of devices:				 1
  Max compute units:				 20
  Max work group size:				 256
  Max clock frequency:				 1795Mhz
  Max memory allocation:			 3221225472
  Cache type:					 Read/Write
  Cache line size:				 64
  Cache size:					 16384
  Global memory size:				 3221225472
  Constant buffer size:				 3221225472
  Max number of constant args:			 8
  Local memory type:				 Scratchpad
  Local memory size:				 65536
  Queue properties:				 
    Out-of-Order:				 No
  Name:						 gfx1010
  Vendor:					 Advanced Micro Devices, Inc.
  Driver version:				 2906.10 (PAL,LC)
  Version:					 OpenCL 1.2 AMD-APP (2906.10)
  Extensions:					 cl_khr_fp64 cl_khr_global_int32_base_atomics cl_khr_global_int32_extended_atomics cl_khr_local_int32_base_atomics cl_khr_local_int32_extended_atomics cl_khr_int64_base_atomics cl_khr_int64_extended_atomics cl_khr_3d_image_writes cl_khr_byte_addressable_store cl_khr_fp16 cl_khr_gl_sharing cl_amd_device_attribute_query cl_amd_media_ops cl_amd_media_ops2 cl_khr_d3d10_sharing cl_khr_d3d11_sharing cl_khr_dx9_media_sharing cl_khr_image2d_from_buffer cl_khr_gl_event cl_amd_liquid_flash cl_amd_copy_buffer_p2p 


Work Unit Info:
...............
Credit multiplier is :  2.85
WU true angle range is :  0.015965
Used GPU device parameters are:
	Number of compute units: 20
	Single buffer allocation size: 128MB
	Total device global memory: 3072MB
	max WG size: 256
	local mem type: Real
	LotOfMem path: yes
	LowPerformanceGPU path: no
	HighPerformanceGPU path: no
period_iterations_num=50
Spike: peak=25.88879, time=7.427, d_freq=6035992389.54, chirp=0, fft_len=2k
Spike: peak=24.04779, time=13.33, d_freq=6035988539.46, chirp=0, fft_len=2k
Spike: peak=24.30419, time=17.81, d_freq=6035988947.38, chirp=0, fft_len=2k
Spike: peak=24.55801, time=21.92, d_freq=6035991529, chirp=0, fft_len=2k
Spike: peak=26.15299, time=24.43, d_freq=6035991802.81, chirp=0, fft_len=2k
Spike: peak=26.0944, time=27.47, d_freq=6035994216.8, chirp=0, fft_len=2k
Spike: peak=27.66727, time=33.38, d_freq=6035986253.99, chirp=0, fft_len=2k
Spike: peak=27.41549, time=40, d_freq=6035994708.54, chirp=0, fft_len=2k
Spike: peak=27.27554, time=42.5, d_freq=6035991802.81, chirp=0, fft_len=2k
Spike: peak=24.52703, time=51.99, d_freq=6035994619.13, chirp=0, fft_len=2k
Spike: peak=26.31845, time=57.53, d_freq=6035988891.5, chirp=0, fft_len=2k
Spike: peak=32.01891, time=61.83, d_freq=6035994574.43, chirp=0, fft_len=2k
Spike: peak=26.64035, time=70.6, d_freq=6035986298.7, chirp=0, fft_len=2k
Spike: peak=24.03511, time=74.36, d_freq=6035997167.23, chirp=0, fft_len=2k
Spike: peak=25.85624, time=82.23, d_freq=6035994613.54, chirp=0, fft_len=2k
Spike: peak=33.65392, time=85.99, d_freq=6035991892.22, chirp=0, fft_len=2k
Spike: peak=25.61749, time=0.179, d_freq=6035994574.43, chirp=0, fft_len=4k
Spike: peak=28.22622, time=1.253, d_freq=6035991492.68, chirp=0, fft_len=4k
Spike: peak=36.43148, time=1.611, d_freq=6035986262.37, chirp=0, fft_len=4k
Spike: peak=27.07553, time=6.263, d_freq=6035997211.93, chirp=0, fft_len=4k
Spike: peak=31.02649, time=8.769, d_freq=6035994624.72, chirp=0, fft_len=4k
Spike: peak=28.11472, time=9.485, d_freq=6035986301.49, chirp=0, fft_len=4k
Spike: peak=24.45503, time=9.843, d_freq=6035997262.22, chirp=0, fft_len=4k
Spike: peak=26.05438, time=10.92, d_freq=6035985949.45, chirp=0, fft_len=4k
Spike: peak=31.07369, time=14.85, d_freq=6035994490.61, chirp=0, fft_len=4k
Spike: peak=30.17158, time=15.57, d_freq=6035991400.48, chirp=0, fft_len=4k
Spike: peak=35.40093, time=15.93, d_freq=6035991492.68, chirp=0, fft_len=4k
Spike: peak=26.66651, time=16.64, d_freq=6035994568.84, chirp=0, fft_len=4k
Spike: peak=24.04166, time=18.43, d_freq=6035991621.2, chirp=0, fft_len=4k
Spike: peak=25.65009, time=18.79, d_freq=6035994666.63, chirp=0, fft_len=4k
OpenCL queue synchronized
SETI@Home Informational message -9 result_overflow
NOTE: The number of results detected equals the storage space allocated.

Best spike: peak=36.43148, time=1.611, d_freq=6035986262.37, chirp=0, fft_len=4k
Best autocorr: peak=0, time=-2.124e+011, delay=0, d_freq=0, chirp=0, fft_len=0 
Best gaussian: peak=0, mean=0, ChiSq=0, time=-2.124e+011, d_freq=0,
	score=-12, null_hyp=0, chirp=0, fft_len=0 
Best pulse: peak=1.807642, time=45.82, period=2.965, d_freq=6035991042.85, score=0.8661, chirp=0, fft_len=128 
Best triplet: peak=0, time=-2.124e+011, period=0, d_freq=0, chirp=0, fft_len=0 
Spike count:    30
Autocorr count: 0
Pulse count:    0
Triplet count:  0
Gaussian count: 0
Wallclock time elapsed since last restart: 7.0 seconds
Fftlength=32,pass=3:Tune: sum=14.8941(ms); min=14.89(ms); max=14.89(ms); mean=14.89(ms); s_mean=14.89; sleep=15(ms); delta=110; N=1; usual
Fftlength=64,pass=3:Tune: sum=186.98(ms); min=2.491(ms); max=7.075(ms); mean=6.233(ms); s_mean=5.012; sleep=0(ms); delta=109; N=30; usual
Fftlength=64,pass=4:Tune: sum=143.901(ms); min=2.592(ms); max=6.316(ms); mean=5.33(ms); s_mean=4.488; sleep=0(ms); delta=106; N=27; usual
Fftlength=64,pass=5:Tune: sum=55.5116(ms); min=1.837(ms); max=4.496(ms); mean=3.965(ms); s_mean=3.528; sleep=0(ms); delta=173; N=14; usual
Fftlength=128,pass=3:Tune: sum=48.4276(ms); min=2.109(ms); max=3.579(ms); mean=3.229(ms); s_mean=3.111; sleep=0(ms); delta=94; N=15; usual
Fftlength=256,pass=3:Tune: sum=18.3469(ms); min=0.7429(ms); max=2.459(ms); mean=2.039(ms); s_mean=1.813; sleep=0(ms); delta=88; N=9; usual
Fftlength=256,pass=4:Tune: sum=15.5168(ms); min=0.6408(ms); max=2.285(ms); mean=1.94(ms); s_mean=1.745; sleep=0(ms); delta=87; N=8; usual
Fftlength=256,pass=5:Tune: sum=8.52624(ms); min=0.6132(ms); max=1.453(ms); mean=1.218(ms); s_mean=1.144; sleep=0(ms); delta=86; N=7; usual
Fftlength=512,pass=3:Tune: sum=7.62096(ms); min=0.5597(ms); max=1.114(ms); mean=0.9526(ms); s_mean=0.895; sleep=0(ms); delta=47; N=8; usual
Fftlength=512,pass=4:Tune: sum=6.9662(ms); min=0.2702(ms); max=1.08(ms); mean=0.8708(ms); s_mean=0.7758; sleep=0(ms); delta=47; N=8; usual
Fftlength=512,pass=5:Tune: sum=4.01668(ms); min=0.2652(ms); max=0.6827(ms); mean=0.5738(ms); s_mean=0.5355; sleep=0(ms); delta=46; N=7; usual
Fftlength=1024,pass=3:Tune: sum=3.72044(ms); min=0.1998(ms); max=0.5678(ms); mean=0.4651(ms); s_mean=0.4243; sleep=0(ms); delta=27; N=8; usual
Fftlength=1024,pass=4:Tune: sum=2.99408(ms); min=0.2747(ms); max=0.5001(ms); mean=0.4277(ms); s_mean=0.4066; sleep=0(ms); delta=26; N=7; usual
Fftlength=1024,pass=5:Tune: sum=1.92216(ms); min=0.1039(ms); max=0.3325(ms); mean=0.2746(ms); s_mean=0.2534; sleep=0(ms); delta=26; N=7; usual
Fftlength=2048,pass=3:Tune: sum=1.2808(ms); min=1.281(ms); max=1.281(ms); mean=1.281(ms); s_mean=1.281; sleep=0(ms); delta=1; N=1; high_perf

class Gaussian_transfer_not_needed:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_transfer_needed:		total=0,	N=0,	<>=0,	min=0	max=0


class Gaussian_skip1_no_peak:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_skip2_bad_group_peak:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_skip3_too_weak_peak:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_skip4_too_big_ChiSq:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_skip6_low_power:		total=0,	N=0,	<>=0,	min=0	max=0


class Gaussian_new_best:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_report:		total=0,	N=0,	<>=0,	min=0	max=0
class Gaussian_miss:		total=0,	N=0,	<>=0,	min=0	max=0


class PC_triplet_find_hit:		total=4,	N=4,	<>=1,	min=1	max=1
class PC_triplet_find_miss:		total=4,	N=4,	<>=1,	min=1	max=1


class PC_pulse_find_hit:		total=5,	N=5,	<>=1,	min=1	max=1
class PC_pulse_find_miss:		total=2,	N=2,	<>=1,	min=1	max=1
class PC_pulse_find_early_miss:		total=2,	N=2,	<>=1,	min=1	max=1
class PC_pulse_find_2CPU:		total=0,	N=0,	<>=0,	min=0	max=0


class PoT_transfer_not_needed:		total=4,	N=4,	<>=1,	min=1	max=1
class PoT_transfer_needed:		total=5,	N=5,	<>=1,	min=1	max=1

class SleepQuantum:		total=0,	N=0,	<>=0,	min=0	max=0

GPU device sync requested...  ...GPU device synched
02:03:51 (13124): called boinc_finish(0)

</stderr_txt>
]]>
https://setiathome.berkeley.edu/result.php?resultid=8295133008
 
Bisher habe ich keinerlei Rückmeldungen auf meine PNs an die Betroffenen GPUs erhalten. Dann brauch ich das wohl auch nicht fortsetzen, wenn es niemand liest.
 
Ich hatte immerhin eine Antwort von einem 5700er Nutzer, der sich bedankt und grfagt hat, wo er denn die Berechnung von GPU-WUs abwählen kann.
 
Evtl. hab ich kommende Woche einen Kunden-PC mit Radeon 5500 zu bauen, sofern ich ihn noch von den Vorzügen gegenüber einer GeForce überzeugen kann. ;) Werde dann bei meinen obligatorischen Stabilitätstests auch SETI@Home via OpenCL probieren. Das Stepping der kleinen Navi der 5500 ist ja sicherlich jüngeren Datums als der Ur-Navi. Sollte ein Hardware-Bug darin stecken, ist er beim Chip der 5500 mittlerweile sicherlich gefixt worden. Wenn SETI bei der 5500 fehlerfrei läuft, wäre das ein Indiz auf einen Hardware-Bug im 5700er-Chip. Falls die 5500 auch Fehler wirft, ist wohl eher von einem Bug im Treiber auszugehen. Mal sehn...
 
Zuletzt bearbeitet:
Das ärgert mich schon, wäre das vorher bekannt gewesen hätte ich keine 5700 XT gekauft.
 
Evtl. hab ich kommende Woche einen Kunden-PC mit Radeon 5500 zu bauen, sofern ich ihn noch von den Vorzügen gegenüber einer GeForce überzeugen kann. ;) Werde dann bei meinen obligatorischen Stabilitätstests auch SETI@Home via OpenCL probieren. Das Stepping der kleinen Navi der 5500 ist ja sicherlich jüngeren Datums als der Ur-Navi. Sollte ein Hardware-Bug darin stecken, ist er beim Chip der 5500 mittlerweile sicherlich gefixt worden. Wenn SETI bei der 5500 fehlerfrei läuft, wäre das ein Indiz auf einen Hardware-Bug im 5700er-Chip. Falls die 5500 auch Fehler wirft, ist wohl eher von einem Bug im Treiber auszugehen. Mal sehn...


Das wäre eine Idee. HotHardware hatte gestern Scott Wasson in einem Livestream und man konnte Fragen stellen, empfehle ich uebrigens jedem mal, die haben relativ wenig Live-Viewer - imo waren es so 30 bis 60 - und da hat man mal die Chance, dass Fragen durchkommen:

https://youtu.be/BqFf7RIUDeU?t=890

AMD ist der Fehler also definitiv bekannt, nur haben sie momentan anscheinend keine Lösung.
 
So, beim neuesten Treiber hat es das Problem in die "Known Issues" geschafft:


  • SETI@Home may be provided incorrect results from Radeon RX 5700 series graphics products


Man kann also davon ausgehen, dass AMD daran auch arbeitet!
 
"Maybe" hätten sie aber stecken lassen können. Das ist ja defnitiv der Fall.
 
Das Grundproblem ist dass Seti unsauber arbeitet.

1. Niemals praktisch identische Systeme für die Verifikation nutzen, besser eine GPU und eine CPU, oder wenigstens NVidia und AMD.
2. Systeme die eine hohe Fehlerzahl produzieren werden bisher niemals ausgeschlossen - man sollte Systeme sperren die 25% oder mehr Fehler produzieren.
 
*rofl* immer diese nervigen Spammer - Problem ist die haben aktuell beim neuen Treiber noch viele andere Baustellen.
 
Bei Seti braucht man nun offenbar für die Validation der fehlerhaften Ergebnisse 3 andere hosts, wenn ich das richtig verstanden habe.
https://setiathome.berkeley.edu/forum_thread.php?id=84508&postid=2024788
Damit sollte zumindest nicht mehr so viel Müll durchkommen, weil 3x RX5700 doch etwas unwahrscheinlicher pro WU ist als nur 2x.
Manchmal kommt trotzdem noch was durch, aber man denkt schon über Quorum 4 nach, falls der Server das packt.
 
Es reicht aber wenn 2 richtig sind, soweit ich das beurteilen kann
 
ämm schuldige richtig natürlich falsch, meinte wenn zwei Ergebnis gleich sind
Beispiel a.
5700 kommt zu Ergebnis 5
Vega VII rechnet ne 1
und ne 1070TI rechent ne 1

Wird die wu an sich als ok bewertert und die Vega so wie die 1070 Ti wird gewärtet

FAll Nr2
5700 Rechnet ne 5
Vega Vii REchnet ne 1
ne 2. 5700 rechnet ne 5

WU wird obwohl sie falsch ist gerwertet und die Vega geht lerr aus. Hab mindesten 1 Wu wo das der fall war
 
Also in der Praxis sehe ich auch noch keine Verbesserung.
Aber immerhin ist das Thema den Projektverantwortlichen nun bekannt und man sucht nach Lösungen.
 
Zurück
Oben Unten