Berechnungsfehler einzelner WU's

bschicht86

Redaktion
☆☆☆☆☆☆
Mitglied seit
14.12.2006
Beiträge
4.249
Renomée
228
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
Ich lasse meine beiden 7970 hier mitrechnen, jedoch sind mir heute Berechnungsfehler aufgefallen. Die WU's mit dem Namen "de_modfit_16TestStars_1s_132_wrap_2_*" werden nach sehr kurzer Zeit als Berechnungsfehler ausgegeben. Komischerweise laufen alle anderen WU's ohne Probleme.

Da alle anderen sauber berechnet werden, gehe ich mal davon aus, dass kein Hardware- oder Treiberdefekt vorliegt.


Daher wollte ich mal fragen, ob das jemand kennt.
 
Ja, hab auch welche dabei, die Fehler bringen.
 
Sind es denn auch genau diese mit Namen?

--- Update ---

Beim genaueren Blick auf die WU's steht: "Zu viele Fehler (evtl. ein Bug)"

Im Task steht folgendes:

Code:
<core_client_version>7.2.42</core_client_version>
<![CDATA[
<message>
(unknown error) - exit code -1073740940 (0xc0000374)
</message>
<stderr_txt>
<search_application> milkyway_separation 1.30 Windows x86_64 double OpenCL </search_application>
Reading preferences ended prematurely
BOINC GPU type suggests using OpenCL vendor 'Advanced Micro Devices, Inc.'
Error loading Lua script 'astronomy_parameters.txt': [string "number_parameters: 4..."]:1: '<name>' expected near '4' 
Switching to Parameter File
Integral area dimensions must be even: cut 0: { nu_steps = 20, mu_steps = 400, r_steps = 175 }

</stderr_txt>
]]>

Auf jeden Fall bekomm ich vermutlich wegen der "Berechnungsfehler" jetzt nur noch alle 2h neue WU's
 
Schaut einfach ins Forum von MW@Home, dort ist das bekannt.
Und ja, ich habe auch geglaubt, meine 7870 sei jetzt am Ende!
Glücklicherweise kam gerade die R9 280X, mit der das auch passierte; Projekt zurückgesetzt; Fehler immer noch da.
Und dann hatte ich in das Forum dort geschaut.

... und selbst gemerkt, dass es auch alle anderen User und Geräte betrifft.

Puh!
 
jou, von denen habe ich auch einige, 118 Stk
 
Wollte kein neues Thema aufreißen.

Habe mir mal die Tahitis die in unserem Team laufen angeschaut um sie mit meiner zu vergleichen.
Dabei ist mir aufgefallen, dass ca 10-50% (je nach Karte) des Outputs ungültig sind. Oder wie Milkyway sagt: Überprüfung ohne Ergebnis
Das ist wirklich viel. Hat jemand eine Idee an was das liegen könnte? Ich habe zB eine RX460 gefunden ohne einen Fehler.
 
schlechte wu serie oder treiber ?!
 
Zuletzt bearbeitet:
WU-Serie glaube ich nicht, ich beobachte das schon länger und hatte auch immer so 30% Ausschuß. (deshalb habe ich mir auch mal meine Mitsteiter angeguckt)
Treiber wäre narürlich möglich...
 
device 1 macht dir die Berechnungsfehler. also die zweite vom System erkannte Karte.

Edit: Halt stop! Ich sehe grad das auch Device 0 Fehler macht. Scheint also von beiden Karten aus zu kommen. Treiber?

Edit2: Wenn es stimmt das 4 WU's parallel pro Kartelaufen dann reduzier mal auf 3. Ich meine das ich auf meiner 6970 auch Probleme hatte. Ist aber schon her.
 
Zuletzt bearbeitet:
Woran siehst du welche WU von welcher GPU geschrottet wurde? Habe zwischen durch Einstellungen geändert
 
Wenn du auf den von dir geposteten Link klickst und die Berechnungsfehler WU's siehst, dann klickst du in der Spalte "TASKS" auf einer der WU Nummern.
z.B. https://milkyway.cs.rpi.edu/milkyway/result.php?resultid=229286273
und scrollst nach unten zur Stderr Ausgabe.
Dort sagt er dir irgendwo das er 2 karten gefunden hat und welche er nutzt:
hier--> Using device 1 on platform 0
 
Berechnungsfehler oder nur Bestätigungsfehler?
Bestätigungsfehler hatte ich bei meinem Testlauf mit der VII ebenfalls (ca. 20 Stück bei 1000 WUs) aber die Berechnung an sich lief einwandfrei durch.
 
Bestätigungsfehler, das verstehe ich so das die WU zwar durchlief ohne Abbruch usw. aber das Ergebnis nicht stimmt -> Graka hat sich verschluckt usw.
Bin dann immer etwas mit dem Takt GPU/RAM runter.
Oder ist das normal das da WUs ausfallen? Hatte Systeme mit mehr und welche ohne Bestätigungsfehler, Berechnungsfehler/Abbrüche waren sehr selten und fast immer auf Neustart oder ähnliches zurückführbar.
Kann auch sein das ich gestern zu viel Blut in meinem Koffeinkreislauf hatte, da ich selbst die mehrfache Auflistung "Using Device X" im Log nicht gesehen habe *chatt*
 
Solange es sich nicht extrem häuft würde ich es als normal ansehen denn es heißt ja lediglich dass die Ergebnisse entsprechend von einander abweichen.
Wieso, weshalb, warum und wie sehr ist dabei erstmal offen. Wie gesagt, bei mir tauchen auch hin und wieder welche bei Standard Takt auf.
 
Ich hab dann da auch mal nen Problem unter Linux und da bin ich leider etwas unbedarft

<core_client_version>7.9.3</core_client_version>
<![CDATA[
<message>
process exited with code 193 (0xc1, -63)</message>
<stderr_txt>
<search_application> milkyway_separation 1.46 Linux x86_64 double OpenCL </search_application>
Reading preferences ended prematurely
BOINC GPU type suggests using OpenCL vendor 'Advanced Micro Devices, Inc.'
Setting process priority to 0 (13): Permission denied
Error loading Lua script 'astronomy_parameters.txt': [string "number_parameters: 4..."]:1: '<name>' expected near '4'
Switching to Parameter File 'astronomy_parameters.txt'
<number_WUs> 5 </number_WUs>
<number_params_per_WU> 20 </number_params_per_WU>
Using AVX path
Found 1 platform
Platform 0 information:
Name: Clover
Version: OpenCL 1.1 Mesa 19.2.8
Vendor: Mesa
Extensions: cl_khr_icd
Profile: FULL_PROFILE
Didn't find preferred platform
Using device 0 on platform 0
Found 1 CL device
Device 'AMD RAVEN (DRM 3.33.0, 5.3.0-40-generic, LLVM 9.0.0)' (AMD:0x1002) (CL_DEVICE_TYPE_GPU)
Board:
Driver version: 19.2.8
Version: OpenCL 1.1 Mesa 19.2.8
Compute capability: 0.0
Max compute units: 8
Clock frequency: 1250 Mhz
Global mem size: 3221225472
Local mem size: 32768
Max const buf size: 2147483647
Double extension: cl_khr_fp64
SIGSEGV: segmentation violation

Exiting...

</stderr_txt>
]]>
 
Kann mir da keiner helfen?
 
Wie äußert sich der Fehler denn?
Tritt er immer auf, nur manchmal,...?
Welchen AMD-Treiber hast Du wie genau installiert?
 
Jede WU bricht ab und ich habe keinen Treiber installiert, der MESA ist standardmäßig drin und laut Internet soll man bei Mint 19 und einer APU auch keinen anderen installieren.
Dachte mir fehlt vllt eine Erweiterung oder der gleichen.
 
Dann dürften ja auch die meisten anderen Projekte nicht laufen. OpenCL braucht man schon, keine Ahnung, ob das irgendwas mit MESA zu tun hat.
Schau mal in die Werkzeuge/Meldungen ganz oben. Da sollte irgendwas zur nutzbaren OpenCL-Version stehen.
 
Scheint ein Problem mit MW zu sein, PG läuft problemlos
 
Die Meldungen am Anfang wären trotzdem interessant.

Gehören die in der obigen Fehlermeldung genannten Dateien alle dem Besitzer BOINC ?
Da steht ja auch irgendwas von fehlenden Zugrifssrechten.
 
wie gesagt, ich habe keine Ahnung was da steht ^^
Ich habe auch wenig Ahnnung von Linux, ich kann Dinge umsetzen die man mir vorgibt aber das war es auch xD
Generell scheine ich aber nicht der einzige mit dem Problem zu sein, im MW Forum ist noch einer, übrigens funktioniert PG auch nicht.
PG WUs laufen ewig weiter auch wenn sie auf 100% stehen, sie werden also nie fertig und wenn ich den PC neu starte dann starten auch die WUs von vorne.

--- Update ---

Sonst muss ich halt wieder Window installieren :)

--- Update ---

Was mich auch wundert, unter Windows steht bei der CPU OCL 2.0, bei Linux hingegen nur 1.1, hat das irgend einen bestimmten Grund?
Also ich vermute es liegt am Treiber aber da man den nicht ändern soll naja keine Ahnung, scheinbar ist es nicht so einfach wie früher das Zeug unter Linux zum laufen zu bekommen.
 
Du sollst die Meldungen von Werkzeuge/Meldungen doch einfach nur kopieren und hier einfügen - das ist unter Windows oder Linux das Gleiche.

Dann könnte ich das zumindest morgen mal mit meiner VII-Kiste vergleichen - heute habsch nur Nvidia da.
 
Milkyway läuft mit dem OpenCL aus Mesa nicht, da brauchst du den offiziellen Treiber bzw. dessen OpenCL.

--- Update ---

https://milkyway.cs.rpi.edu/milkyway/show_host_detail.php?hostid=832640

Coprocessors AMD AMD RAVEN (DRM 3.33.0, 5.3.0-40-generic, LLVM 9.0.0) (3072MB) OpenCL: 1.1

Das ist ein typischer Coprocessor string von Mesa OpenCL. Unter Linux installiert der offizielle Treiber nur unter Ubuntu LTS, RedHat, SLES und CentOS problemlos.
Wenn du bei Mint bleiben willst, installier mal das OpenCL aus dem 19.50er Treiber, habe ich extrahiert und in ein eigenständiges Paket gepackt:
http://kerbodyne.com/boinc/amdgpu-ocl_19.50-967956.deb
Dazu brauchst du dann noch ocl-icd-libopencl1 aus der Softwareverwaltung.
 
Zurück
Oben Unten