AMD Radeon "Navi" OpenCL Bug Makes it Unfit for SETI@Home

eratte

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2001
Beiträge
21.751
Renomée
2.777
Standort
Rheinberg / NRW
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2020
  • SETI@Home Intel-Race II
  • BOINC Pentathlon 2021
AMD Radeon "Navi" OpenCL Bug Makes it Unfit for SETI@Home (TechPowerUp)

A bug with the Radeon RX 5700-series "Navi" OpenCL compute API ICD (installable client driver) is causing the GPUs to crunch incorrect results for distributed compute project SETI@Home. Since there are "many" Navi GPUs crunching the project cross-validating each others' incorrect results, the large volume of incorrect results are able to beat the platform's algorithm and passing statistical validation, "polluting" the SETI@Home database. Some volunteers at the SETI@Home forums, where the the issue is being discussed, advocate banning or limiting results from contributors using these GPUs, until AMD comes out with a fix for its OpenCL driver. SETI@Home is a distributed computing project run by SETI (Search for Extraterrestrial Intelligence), tapping into volunteers' compute power to make sense of radio waves from space.
 
Das Schlimme ist, es wurde bereits vor vielen Monaten beobachtet und vom Projekt gibt es quasi Null Reaktionen.

Bei der Radeon7 hab ich zwar auch immer wieder WUs, die irgendwann feststecken und dann wegen Timeout abgebrochen werden. Aber da ist es eindeutig und diese WUs werden auch nicht gewertet, da sie kein Ergebnis ausspucken. Alle, die durchlaufen, werden auch von allen anderen Karten (außer der 5700) als valide markiert.
 
Sind die Navi-GPUs damit grundsätzlich nicht DC geeignet, oder ist das ein reines Seti Problem?
Eigentlich wollte ich zu Weihnachten meine RX570 durch eine 5700er ablösen, aber wenn keine BOINC-Projekte mehr darauf laufen wäre das ein Grund noch länger zu warten...
 
Wenn ich die Diskussion richtig verfolgt habe, laufen Einstein@home, Milkyway@home und Collatz auf Navi fehlerfrei. Was aber nicht heißen muss, dass der Fehler bei der SETI@Home-OpenCL-Anwendung zu suchen ist. Es kann ja sein, dass SETI eine mathematische Funktion nutzt, die die anderen Projekte nicht verwenden, und diese bei Navi oder dessen Treiber fehlerhaft ist. Bleibt nur zu hoffen, dass es wirklich ein Fehler im Treiber ist und nicht in der GPU :o
 
Grmpf, dann muss meine RX570 doch noch länger durchhalten. *motz*
Dann vielleicht doch einen 3900x zu Weihnachten? :D
 
Wahrscheinlich ist es eine Verkettung mehrerer Faktoren, die da zusammenkommen.
Die GPU, der Befehlssatz, der OpenCL-Treiber und letztendlich die App.
Und natürlich die Projekte selbst, die nicht merken, dass die Berechnungen alle falsch sind.
Ich kann mir nicht vorstellen, dass es so schwer ist, einen Check zu implementieren, ob der jeweilige PC in letzter Zeit auffällig viele fehlerhafte WUs geliefert hat. Und wenn ja, dann bekommt er eben nur noch 5 WUs pro Tag, bis die endlich fehlerfrei sind. Und alle diese WUs müssen auch noch von mindestens 2 anderen PCs gegengerechnet werden. Denn die Wahrscheinlichkeit, dass 3x5700er zum Einsatz kommen, ist deutlich geringer als bei zweien.
 
Sieht für mich nach einem Problem nur bei Seti aus, habe meine 5700XT eben ohne Probleme collatz rechnen lassen.

Ok wir man lesen kann scheint es ja auch wo anderes Probleme zu geben.
 
Zuletzt bearbeitet:
irgendwas neues zu dem Thema?
Nachdem ich jahrelang ohne GPU Berechnung unterwegs war (ich hatte Seti "weil immer schon so gemacht" immer als Service Installation installiert), mich nie damit beschäftigt habe und jetzt gelernt habe dass es auch anders geht :D will ich der RX5700 natürlich auch was zu tun geben.
Kann man Seti konfigurieren dass alle Projekte auf allen PCs GPU dürfen, aber Seti auf diesem einen RX5700 PC nicht?
 
Kann man Seti konfigurieren dass alle Projekte auf allen PCs GPU dürfen, aber Seti auf diesem einen RX5700 PC nicht?

Ja kann man auf der Projektseite denke ich bei den Einstellungen für die Locations
 
jaein. bzw. vielleicht bin ich nur blind.
in den Einstellungen für die Location fehlt mir irgendwie ein Häckchen "GPU Computing ja/nein".
Anmerkung 2019-12-02 123059.jpg
klar, kann ich den Wert bei GPU pausieren und " 'In Benutzung' meint Aktivität der Maus/Tastatur in den letzten xxx min" so setzen, dass die GPU Nutzung für Seti nie zum Tragen kommt, habs auch schon so eingestellt gehabt, aber dann lädt er trotzdem zig WUs runter, in Erwartung dass er sie irgendwann bearbeiten darf.
Ist irgendwie auch nicht ganz so zielführend. ??? ??? ???
 
wenn du BAM nutz kannst du einzeln Rechner zuweisen das z.b nicht die AMD Gpu genutzt werden soll
 
Du kannst auch auf dem Rechner mit der 5700er im BOINC-Manager unter "Steuerung" die GPU pausieren, dann sollte er eigentlich auch keine GPU-WUs bekommen.
 
Bis jetzt noch nicht, aber schaue ich mir heute Abend mal an :)
Danke. :)
 
Du musst unter "Einstellungen für dieses Projekt" "SETI@home Einstellungen" Einstellungen für die Locations aktivieren und dann auch einstellen (home, school und work).

Da kannst dann folgendes einstellen und nachher dem entsprechenden Rechner die Location zuweisen.

 
ach daaa :D .... ja, da hatte ich nicht geschaut
danke :)
 
Also doch blind ;)
 
Das Thema wurde in der AMD Community ja auch schon mal aufgegriffen, leider hat sich da der Threadersteller nicht mehr gemeldet.

https://community.amd.com/thread/243179


Ich habe aber gerade in nem Briefing mit AMD die Frage zu dem Fehler gestellt und es wurde gesagt, dass man darauf zurückkommen würde. Das war zu speziell für das anstehende Thema. Mal gucken, ob da was kommt.
 
Seid wann brieft AMD Schlümpfe? ;) Sachen gibt es.



Sorry ist irgendwie über mich gekommen, Offtopic einstell und duck und weg.
 
Zuletzt bearbeitet:
Kann mir jemand sagen, was bei den inkorrekten Resultaten dabei steht?
 
[h=2]Gerade mal meine Ungültigen geprüft und siehe da 5700XT gegen 5700XT validiert und die richtige (meine :D) wurde als inkorrekt abgebügelt:

Aufgabe 8299869338[/h]
Nameblc56_2bit_guppi_58692_84290_HIP80509_0105.13990.0.22.45.198.vlar_0
Arbeitspaket3772500603
Erstellt4 Dec 2019, 15:27:16 UTC
Gesendet4 Dec 2019, 16:37:40 UTC
Ablaufdatum26 Jan 2020, 21:37:22 UTC
Empfangen4 Dec 2019, 17:26:54 UTC
ServerstatusAbgeschlossen
ResultatErfolgreich
ClientstatusFertig
Endstatus0 (0x00000000)
Computer ID8859796
Laufzeit39 sek.
CPU Zeit20 sek.
PrüfungsstatusUngültig
Punkte0.00
max. FLOPS des Gerätes28,984.32 GFLOPS
AnwendungsversionSETI@home v8
Anonyme Plattform (NVIDIA Grafikkarte)
Peak working set size613.84 MB
Peak swap size6,814.17 MB
Peak disk usage0.02 MB

[h=3]Stderr Ausgabe[/h] <core_client_version>7.9.3</core_client_version>
<![CDATA[
<stderr_txt>
setiathome_CUDA: Found 1 CUDA device(s):
Device 1: GeForce RTX 2080 Ti, 11018 MiB, regsPerBlock 65536
computeCap 7.5, multiProcs 68
pciBusID = 66, pciSlotID = 0
In cudaAcc_initializeDevice(): Boinc passed DevPref 1
setiathome_CUDA: CUDA Device 1 specified, checking...
Device 1: GeForce RTX 2080 Ti is okay
SETI@home using CUDA accelerated device GeForce RTX 2080 Ti
Unroll autotune 1. Overriding Pulse find periods per launch. Parameter -pfp set to 1

setiathome v8 enhanced x41p_V0.98b1, Cuda 10.1 special
Modifications done by petri33, compiled by TBar

Detected setiathome_enhanced_v8 task. Autocorrelations enabled, size 128k elements.
Work Unit Info:
...............
WU true angle range is : 0.023638
Sigma 31
Thread call stack limit is: 1k
Spike: peak=24.9226, time=74.45, d_freq=6090151977.79, chirp=-1.2845, fft_len=128k
Spike: peak=25.23114, time=74.45, d_freq=6090151977.78, chirp=-1.2858, fft_len=128k
Spike: peak=24.53654, time=74.45, d_freq=6090151977.77, chirp=-1.287, fft_len=128k
Spike: peak=24.44857, time=62.99, d_freq=6090154446.67, chirp=20.588, fft_len=128k
Spike: peak=25.00517, time=62.99, d_freq=6090154446.66, chirp=20.589, fft_len=128k
Spike: peak=24.37586, time=62.99, d_freq=6090154446.65, chirp=20.59, fft_len=128k
Pulse: peak=10.24404, time=45.84, period=23.33, d_freq=6090157848.41, score=1.012, chirp=21.886, fft_len=512
Spike: peak=24.42664, time=62.99, d_freq=6090158825.29, chirp=25.222, fft_len=128k
Pulse: peak=2.420171, time=45.82, period=4.362, d_freq=6090153928.91, score=1.033, chirp=-28.035, fft_len=256
Pulse: peak=10.28508, time=45.86, period=24.88, d_freq=6090157745.66, score=1.039, chirp=56.191, fft_len=1024
Pulse: peak=2.412184, time=45.84, period=4.348, d_freq=6090158033.72, score=1.052, chirp=67.38, fft_len=512
Pulse: peak=6.656481, time=45.86, period=15.21, d_freq=6090158035.23, score=1.188, chirp=67.38, fft_len=1024
Pulse: peak=4.934289, time=45.86, period=9.828, d_freq=6090158438.42, score=1.113, chirp=82.996, fft_len=1024
Pulse: peak=3.811757, time=45.9, period=7.964, d_freq=6090157665.76, score=1.045, chirp=-87.791, fft_len=2k

Best spike: peak=25.23114, time=74.45, d_freq=6090151977.78, chirp=-1.2858, fft_len=128k
Best autocorr: peak=15.69157, time=40.09, delay=1.4541, d_freq=6090157181.02, chirp=15.625, fft_len=128k
Best gaussian: peak=0, mean=0, ChiSq=0, time=-2.124e+11, d_freq=0,
score=-12, null_hyp=0, chirp=0, fft_len=0
Best pulse: peak=6.656481, time=45.86, period=15.21, d_freq=6090158035.23, score=1.188, chirp=67.38, fft_len=1024
Best triplet: peak=0, time=-2.124e+11, period=0, d_freq=0, chirp=0, fft_len=0

Spike count: 7
Autocorr count: 0
Pulse count: 7
Triplet count: 0
Gaussian count: 0

18:25:29 (6516): called boinc_finish(0)

</stderr_txt>
]]>

Nameblc56_2bit_guppi_58692_84290_HIP80509_0105.13990.0.22.45.198.vlar
AnwendungSETI@home v8
erstellt4 Dec 2019, 15:27:14 UTC
autorisiertes Ergebnis8299869339
gewährte Punkte1.22
Mindestanzahl2
Anfängliche Kopien3
max # von Fehler/Gesamt/Erfolg Aufgaben5, 10, 5

Aufgabe
anklicken für Einzelheiten
ComputerGesendetMeldezeit
oder Ablaufdatum
Erklärung
StatusLaufzeit
(sek)
CPU Zeit
(sek)
PunkteAnwendung
829986933888597964 Dec 2019, 16:37:40 UTC4 Dec 2019, 17:26:54 UTCFertig, als ungültig markiert39.7820.790.00SETI@home v8
Anonyme Plattform (NVIDIA Grafikkarte)
829986933988472924 Dec 2019, 16:37:43 UTC4 Dec 2019, 16:52:06 UTCFertig und Bestätigt11.068.811.22SETI@home v8 v8.22 (opencl_ati_nocal)
windows_intelx86
830016634687728134 Dec 2019, 18:45:40 UTC4 Dec 2019, 19:16:24 UTCFertig und Bestätigt14.4211.661.22SETI@home v8 v8.22 (opencl_ati5_nocal)
windows_intelx86

Besitzer Kekke
pct_25.png
Erstellt12 Nov 2019, 21:21:50 UTC
Gesamtguthaben12,208
Durchschnittliche Punkte507.80
Projektübergreifende Punkte
CPU TypAuthenticAMD
AMD Ryzen 9 3900X 12-Core Processor [Family 23 Model 113 Stepping 0]
Anzahl der Prozessoren24
KoprozessorAMD AMD Radeon RX 5700 XT (8176MB) OpenCL: 2.0
VirtualizationVirtualbox (5.2.8) installed, CPU has hardware virtualization support and it is enabled
BetriebssystemMicrosoft Windows 10
Core x64 Edition, (10.00.18362.00)
BOINC Version7.14.2
Arbeitsspeicher31.92 GB
CPU Cache512 KB
ermittelte Geschwindigkeit für Gleitkommazahlen5.1 Milliarden Operationen/Sek
ermittelte Geschwindigkeit für ganze Zahlen18.28 Milliarden Operationen/Sek
mittlere Uploadgeschwindigkeit33.15 KB/sek
mittlere Downloadgeschwindigkeit233.01 KB/sek
mittlere Taskdauer5.27 Tage
AnwendungsdetailsZeige
Aufgaben2228
Anzahl der Verbindungen zum Server330
Letzter Kontakt4 Dec 2019
Besitzer toby
pct_5.png
Erstellt19 Jul 2019, 9:26:15 UTC
Gesamtguthaben744,015
Durchschnittliche Punkte10,460.15
Projektübergreifende Punkte
CPU TypAuthenticAMD
AMD Ryzen 5 2600X Six-Core Processor [Family 23 Model 8 Stepping 2]
Anzahl der Prozessoren12
KoprozessorAMD AMD Radeon RX 5700 XT (8176MB) OpenCL: 2.0
VirtualizationKeines
BetriebssystemMicrosoft Windows 10
Core x64 Edition, (10.00.18362.00)
BOINC Version7.14.2
Arbeitsspeicher31.95 GB
CPU Cache512 KB
ermittelte Geschwindigkeit für Gleitkommazahlen4.63 Milliarden Operationen/Sek
ermittelte Geschwindigkeit für ganze Zahlen18.27 Milliarden Operationen/Sek
mittlere Uploadgeschwindigkeit263.79 KB/sek
mittlere Downloadgeschwindigkeit1404.43 KB/sek
mittlere Taskdauer0.6 Tage
AnwendungsdetailsZeige
Aufgaben4291
Anzahl der Verbindungen zum Server17040
Letzter Kontakt4 Dec 2019

--- Update ---

Habe mir die "gültigen" Resultate des Users Kekke mal angeschaut. 52 gültige zu 442 ungültige. Von den 52 gültigen waren alle gegen eine andere 5700XT validiert worden. Alle heisst in diesem Fall - ich habe einige Resultate angeschaut, die waren dann alle 5700 gegen 5700 gültig.
 
Da fragt man sich doch, ob die Leute nicht merken, dass sie nur sinnlos Strom verschwenden oder ob sie hoffen, dass es irgendwann von selber durch Zauberhand besser wird?

--- Update ---

Ich hab mir gerade auch mal ein paar von den schlechten Rechnern angeschaut.
Man braucht sich ja nur einen Rechner schnappen und dann alle gültigen Resultate anschauen - sämtliche validier-Rechner sind ebenfalls betroffen.
5 Leute hab ich mal angeschrieben - mal sehen, ob es eine Rückmeldung gibt. Wenn ja, mach ich vielleicht weiter. Wenn nein, liest es wahrscheinlich Keiner.
 
Von der Treiberfront gib es auch schlechte Nachrichten. Es scheint erstmal keine Besserung zu geben.

Aber wenn SETI die Ergebnisse zweier Navi-Karten als Valide erkennt, scheint doch da in der Erkennung was nicht zu stimmen, oder?
 
Zurück
Oben Unten