WinSMP - "will end MPI now"-Bug - Workaround

-cb-

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
4.884
Renomée
69
  • SIMAP Race
  • QMC Race
Servus,

der Eine oder Andere wird es schon mitbekommen haben das ich in letzter Zeit massig Probleme mit dem WinSMP client hatte.
Im offiziellen FAH Forum gibt es etliche Andere die wohl ebenfalls damit zu kämpfen haben.
Falls ihr auch mal darüber stolpert möchte ich euch einen passenden Workaround nicht vorenthalten statt die gesamte WU zu verlieren. ;)

Symptom:
Der Client hat die WU zu 100% durchgerechnet, ist aber nicht in der Lage die MPI sauber herunterzufahren. Dies sieht meißt so aus:
Code:
[03:21:21] Completed 495000 out of 500000 steps  (99 percent)
[03:54:59] Writing local files
[03:54:59] Completed 500000 out of 500000 steps  (100 percent)
[03:55:00] Writing final coordinates.
[03:55:01] Past main M.D. loop
[03:55:01] Will end MPI now
Hier bleibt der client leider stehen. Bendet man den Client und startet ihn neu, passiert dies:
Code:
[05:21:51] Entering M.D.
[B][COLOR="Red"][05:22:06] Rejecting checkpoint[/COLOR][/B]
[05:22:08] Protein: Protein
[05:22:08] Writing local files
[05:22:10] Extra SSE boost OK.
[05:22:11] Writing local files
[05:22:12] Completed 0 out of 500000 steps  (0 percent)
Wie man sieht schmeißt der client den 100% checkpoint raus und alles Arbeit ist verloren!

Workaround:
  • Als erstes den client manuell beenden.
  • Den gesamten Folding@Home Ordner sichern
  • Taskmanager öffnen, dann in der Prozessübersicht die mpiexec.exe sowie die 3(!) Instanzen der smpd.exe suchen und manuell beenden. Es ist wichtig das alle 3 Instanzen der smpd.exe beendet sind!
  • Zur Sicherheit nochmal kontrollieren, das keine Fahcore_a1.exe mehr in der Prozessübersicht vorkommt
  • In das Folding@Home Verzeichnis gehen (nicht in das Backup). Hier erneut die install.bat ausführen und erneut eure Windows Useraccountdaten eingeben. Wieder darauf achten das die "when you see this twice. MPI is working..." Meldung kommt.
  • Jetzt das Backup komplett ins Folding@Home verzeichnis zurückkopieren. Die Dateien die nicht überschrieben werden können ignorieren.
  • Den FAH client erneut starten
Mit etwas Glück sollte man nun dies lesen können:

Code:
[18:57:51] Entering M.D.
[18:57:57] Calling FAH init
[18:57:59] Read topology
[18:58:00] (Starting from checkpoint)
[18:58:00] Read checkpoint
[18:58:00] Protein: Protein
[18:58:01] Writing local files
[18:58:01] Completed 500000 out of 500000 steps  (100 percent)
[18:58:04] Extra SSE boost OK.
[18:58:07] Writing final coordinates.
[18:58:11] Past main M.D. loop
[18:58:11] Will end MPI now
[18:59:11] 
[18:59:11] Finished Work Unit:
[18:59:11] - Reading up to 6048840 from "work/wudata_01.arc": Read 6048840
[18:59:11] - Reading up to 20915972 from "work/wudata_01.xtc": Read 20915972
[18:59:11] goefile size: 0
[18:59:11] logfile size: 376605
[18:59:11] Leaving Run
[18:59:14] - Writing 27446133 bytes of core data to disk...
[18:59:15]   ... Done.
[18:59:15] - Failed to delete work/wudata_01.sas
[18:59:15] - Failed to delete work/wudata_01.goe
[18:59:15] Warning:  check for stray files
[18:59:15] - Shutting down core
[19:01:15] 
[19:01:15] Folding@home Core Shutdown: FINISHED_UNIT
[19:01:15] 
[19:01:15] Folding@home Core Shutdown: FINISHED_UNIT
[19:01:18] CoreStatus = 64 (100)
[B][COLOR="Red"][19:01:18] Sending work to server[/COLOR][/B]

Anmerkung:
Dieser Fehler hat nichts mit der qfix Methode zutun, die des öfteren beim Linux-SMP client eingesetzt wird. Dieser Fehler ist bis dato nur beim WinSMP bekannt und tritt vorwiegend unter Vista aber auch unter WinXP SP2 auf.

Feedback? Immer her damit. :)
 
werde ich probieren falls ich den fehler nochmal haben sollte aber seitdem der core auf version 1.74 läuft hatte ich keine Probleme mehr mit irgendwas, hatte sogar schon ein BSOD und die WU hat einfach weitergerechnet.

EDIT:
Juchu der Workaround hat funktioniet, 1523punkte gerettet. leider erst nach 9,5h gemerkt,dass er stand. :(
 
Zuletzt bearbeitet:
Zurück
Oben Unten