App-Optimierungen

Crunch3r

Vice Admiral Special
Mitglied seit
17.11.2005
Beiträge
704
Renomée
33
Standort
zu Hause
jupp schon klar, nur das es eben noch schneller geht (nur nicht für alle) hast du ja mit deinem vorhigen post bewiesen (bzw. sieht man an den top-computer im projekt ranking, sind ja deine v8s ;D)

naja liegt doch nicht an mir... ich habe denen doch schon vor monaten gesagt, wie,wo und was die machen müssen... wenn die das nicht tun, ist das nicht mein problem ;)

Außerdem hieß es ja schon vor monaten, das eine neue app rauskommen würde,aber die hab ich bis heute noch nicht gesehen... und darum hab ich das einfach mal schnell selber in die alte implementiert (und das hat woll dann doch etwas mehr speed gebracht).
 
naja liegt doch nicht an mir... ich habe denen doch schon vor monaten gesagt, wie,wo und was die machen müssen... wenn die das nicht tun, ist das nicht mein problem ;)

Außerdem hieß es ja schon vor monaten, das eine neue app rauskommen würde,aber die hab ich bis heute noch nicht gesehen... und darum hab ich das einfach mal schnell selber in die alte implementiert (und das hat woll dann doch etwas mehr speed gebracht).
haben die betreiber irgendwas dazu gesagt WARUM die nun die noch schnellere nicht rausgeben? ich versteh das manchmal nicht ganz, die haben die möglichkeit ihre arbeit 10x schneller erledigen zu lassen (von UNS) aber machen es nicht.
.
EDIT :
.

Du weißt aber welches Problem sich daraus ergibt :(
du meinst sie müßten die credits anpassen (massiv nach unten, sonst droht David Anderson mit seiner anwesenheit? :D )
 
haben die betreiber irgendwas dazu gesagt WARUM die nun die noch schnellere nicht rausgeben? ich versteh das manchmal nicht ganz, die haben die möglichkeit ihre arbeit 10x schneller erledigen zu lassen (von UNS) aber machen es nicht.
EDIT
Travis wird/hat sich wohl schon vor seinem Prof dafür rechtfertigen müssen... mehr gibts da nicht zu sagen...

du meinst sie müßten die credits anpassen (massiv nach unten, sonst droht David Anderson mit seiner anwesenheit? :D )

Da braucht es keinen DA dafür... das machen doch schon die anderen schreihälse die sonst zu nix zu gebrauchen sind ...
 
hehe wohl wahr


das erschreckende ist, wieviele projekte es wohl noch gibt, die evtl. 10mal schneller rechnen könnten :]
 
Das hatte ich ganz vergessen das super shuffle den SSE-Durchsatz fast verdoppeln kann ;D
 
Das hatte ich ganz vergessen das super shuffle den SSE-Durchsatz fast verdoppeln kann ;D

ja ... das hilft schon,wenn man ein und die selber berechnung 100000 mal immer wieder macht (ohne sinn und verstand)
Aber es geht natürlich auch anders und dann fällt der cache nicht mehr ins gewicht ;)
 
ja ... das hilft schon,wenn man ein und die selber berechnung 100000 mal immer wieder macht (ohne sinn und verstand)
Aber es geht natürlich auch anders und dann fällt der cache nicht mehr ins gewicht ;)

poste doch mal so eine code-routine ;) (bin gerade zu faul den milkyway source danach zu durchsuchen)
 
poste doch mal so eine code-routine ;) (bin gerade zu faul den milkyway source danach zu durchsuchen)

besorg dir mal VTune ... das hilft ungemein solchefunktionen zu finden.
Kann ich nur empfehlen. Gibt auch ne 30 tage trial version zum testen, wenn du die nicht kaufen willst.
 
besorg dir mal VTune ... das hilft ungemein solchefunktionen zu finden.
Kann ich nur empfehlen. Gibt auch ne 30 tage trial version zum testen, wenn du die nicht kaufen willst.
Ich lege da lieber selbst hand an, lesen/debuggen/verstehen, auch wenn es länger dauert, man wird daraus definitv schlauer ;D
 
Ich lege da lieber selbst hand an, lesen/debuggen/verstehen, auch wenn es länger dauert, man wird daraus definitv schlauer ;D

das kannst du doch auch... VTune ist doch nur der profiler um erstmal heraus zu finden wo am meisten zeit verschwendet wird ;)
 
besorg dir mal VTune ... das hilft ungemein solchefunktionen zu finden.
Kann ich nur empfehlen. Gibt auch ne 30 tage trial version zum testen, wenn du die nicht kaufen willst.
interessantes spielzeug :D
hab zwar keine ahnung von der materie, aber ich hab mal die spin-appl mit dem vtune "geöffnet". da sind doch recht viele "esp folding ineffective" "long latency" ""leave instruction recommended" "store forwarding blocked" "Serialized Instruction" usw usw dabei ;)
was das nun heisst weiss ich nicht *buck*
 
interessantes spielzeug :D
hab zwar keine ahnung von der materie, aber ich hab mal die spin-appl mit dem vtune "geöffnet". da sind doch recht viele "esp folding ineffective" "long latency" ""leave instruction recommended" "store forwarding blocked" "Serialized Instruction" usw usw dabei ;)
was das nun heisst weiss ich nicht *buck*

esp ist ein register in 32 bit modus... bei 64 bit wäre das rsp... aber naja ...
serialized heist nur das die app nicht multithreaded is... etc. etc .etc .....

P.S.
wenn ich mich recht erinnere ist die spinghenge app auch nur ein umgefrickeltes "GROMACS" ... sowas sieht man immer am besten in der linux binary...
 
Ich sach nur Smith-Waterman auf der PS3 - grad ein Paper in die Hand bekommen: 8-10x schneller auf unter CUDA, mehrere hundert mal schneller als auf CPUs. Das wär mal was für SIMAP...

vtune klingt auch echt interessant - spiele jetzt auch mal damit rum - wir implementieren zwar schon in den effizientesten Algos überhaupt, aber das heißt ja nicht unbedingt dass die CPU damit dann auch effizient umgehen kann ;-)
 
Ich sach nur Smith-Waterman auf der PS3 - grad ein Paper in die Hand bekommen: 8-10x schneller auf unter CUDA, mehrere hundert mal schneller als auf CPUs. Das wär mal was für SIMAP...

bäh single precision power, denke SIMAP ist da wesentlich anspruchsvoller ;D
 
Ich hab noch den älteren Thread gelesen, das rumgeheule wegen angeblichem Cheating usw, furchtbar... Wenn die App nun mal soviel brachliegendes Potential hat, das genutzt werden kann, ach gottchen, dann soll er sie nutzen ;-) Dem nen Deckel auf zu setzen finde ich irgendwie sinnlos und unfair...
 
es geht ja nicht um mehr credits für die gleiche arbeit sondern um mehr arbeit in weniger zeit, was mehr credits zur folge hat.

dumm, was...
 
Ist mir klar ;-)

Solang die Credits ehrlich erarbeitet und die Results valide sind, sehe ich da kein Problem...
 
Irgendwo im MW-Forum war der mal verlinkt, lag aber so n bischen Abseits, mir schien es fast wie das private Verzeichnis vom Admin, zwischen Bildern usw ;-)
 
Zuletzt bearbeitet:
Ich glaub das war hier: http://www.cs.rpi.edu/~deselt/ ;) Crunch3r kann da sicher mehr sagen, oder viell. seinen Sourcecode zur Verfügung stellen ;D
Danke!

Habe gerade nicht wirklich viel Zeit, mir das mal genau anzusehen, aber schon beim Überfliegen sieht man, daß der Code stellenweise sehr ineffizient ist.

Und ist das wirklich die Codebasis für die offiziellen Anwendungen? Ich denke nämlich, da hat sich ein übler Bug eingeschlichen (unabhängig von der verschenkten Performance). Dies führt dazu, daß eine Integration mit einer falschen (zu hohen) Anzahl von Stützpunkten durchgeführt wird. Bei den momentan verteilten WUs erhöht sich allein dadurch die Anzahl der ausgeführten Schritte (und damit direkt die Laufzeit der WUs) um den Faktor 2,7. Das ist doch bestimmt nicht so gewollt.

Edit: der Faktor 2,7 bezog sich nur auf einen Teil, in dem Milkyway etwa 60% der Zeit verbringt. Netto bleibt also knapp Faktor 2 übrig.

Also wenn ich am WE ein wenig Zeit finde, stricke ich mal eine exklusive P3D-Version. Versprechen kann ich allerdings nichts, muß erstmal sehen, wie ich das überhaupt kompiliert bekomme. Ist alles ein wenig her, daß ich sowas gemacht habe. Und eigentlich habe ich auch gar keine Zeit. Aber mal sehen.

Edit2: Oh Mann, da gibt es ja richtig üble Stellen. Bin jetzt schon bei Faktor 4 (für die gesamte Anwendung) gegenüber dem Original. Und das alles mit Standard-Code, nix SSE/2/3/4. Langsam wird mir auch klar, wie Crunch3r auf Faktor 30 kommt, wenn man nach einer halben Stunde als Ungeübter schon sowas findet.

Edit3: Heute nochmal einen großen Batzen gefunden, ist jetzt etwa Faktor 10 zum Original auf einem AthlonXP. Muß aber noch überprüfen, ob die Ergebnisse auch validiert werden. Bin ganz schön müde, würde mich wundern, wenn ich keinen Bug eingebaut habe :]
Und dann werde ich wohl mal schauen, ob der Intel-Compiler ein paar Auto-Vektorisierungen für SSE2 schafft. Per Hand habe ich da partout keine Lust drauf. Außerdem will ich ja nicht gierig werden *buck*
 
Zuletzt bearbeitet:
Zurück
Oben Unten