F@H AMD Dual Core Benchmarks

mibo

Grand Admiral Special
Mitglied seit
05.01.2003
Beiträge
2.296
Renomée
65
Standort
Hannover
Hallo Falter,

ich habe mich schon eine Weile gefragt, wie wichtig der Takt und die Cachegröße der AMD Dualcores für F@H sind. Leider habe ich nirgendwo Infos gefunden (falls es welche gibt, bitte sagt es mir).
Also habe ich selber ein paar grobe Benchmarks gemacht - die möchte ich hier mal veröffentlichen. Sollte ich groben Unfug ausgeheckt haben, bitte weist mich darauf hin. Ansonsten könntet ihr vielleicht auch ein paar Tips geben, wie man einen möglichst hohen WU-Durchsatz erfalten kann.

Infos zu den Werten
Habe folgende Hardware benutzt:
- 3800+X2
- Opteron170
- EPOX 9NPA+ Ultra, BIOS 01/03/2006
- OC-Wear TCCD RAM PC400

Habe folgende Software benutzt:
- Suse Linux 9.3 64Bit
- Linux Console (x86) 5.04beta

Es liefen immer 2 Instanzen von F@H - jeweils in einem eigenen Terminalfenster. Habe nebenbei weiter am Rechner Mails bearbeitet und gesurft, wodurch sich natürlich kleine Ungenauigkeiten ergeben.
Als Benchmark-Werte benutze ich die Zeit, die benötigt wird, um die WU 1% weiter zu bearbeiten. Nach meiner Erfahrung ändern sich diese Zeiten nicht schlagartig, sodaß ich mir erlaube die Zeit, die zwischen 24% und 25% der Wu liegt (CPU Einstellung A) mit der Zeit die zwischen 25% und 26% liegt (CPU Einstellung B) zu vergleichen. In diesem Beispiel habe ich die Berechnung der WU nach 25% abgebrochen und den Rechner mit neuen Einstellungen neu gebootet.
Zur Verwendung kamen GROMACS WUs, weil ich die gerade geschickt bekommen hatte ;-)

Benchmarks

1.Taktänderung mit dem X2 3800+
(Den RAM habe ich über Teiler bei ca.220MHz CL2/1T gehalten)
CPU @200MHzx10
fah1(p754-GROMACS): 6:33
fah2(p770-GROMACS): 5:17

CPU @220MHzx10
fah1(p754-GROMACS): 6:00
fah2(p770-GROMACS): 4:52

CPU @240MHzx10
fah1(p754-GROMACS): 5:30
fah2(p770-GROMACS): 4:25


fah1: 2GHz=100%=6:33=393sek
2.2GHz=6:00=360sek=91.6%
2.4GHz=5:30=330sek=84.0%

fah2: 2GHz=100%=5:17=317sek
2.2GHz=4:52=292sek=92.1%
2.4GHz=4:25=265sek=83.6%

2.Cachegröße bei 2400MHz
3800+X2
fah1(p761-GROMACS):
13:14
13:02
13:12
13:07
Summe: 52:35

fah2(p768-GROMACS):
10:31
10:22
10:12
10:13
10:12
Summe: 51:30

Opti170
fah1(p761-GROMACS):
13:05
12:56
13:07
13:06
Summe: 52:14

fah2(p768-GROMACS):
9:45
9:38
9:40
9:45
9:51
Summe: 48:39


fah1: X2=100%=52:35=3155sek
Opti=3134sek=99.3%

fah2: X2=100%=51:30=3090sek
Opti=2919sek=94.5%

Auswertung
Das Anheben des Takts beim X2 haut richtig rein. Ausgehend von 2GHz habe ich zweimal die Frequenz um 10% erhöht und tatsächlich auf jedem Kern eine ca.8% kürzere Rechenzeit pro 10% mehr Takt gemessen. F@H skaliert also schön mit dem Takt - na klar wird es mit ner schnelleren CPU nicht langsamer, aber ich hatte mit nem geringeren Leistungszuwachs gerechnet. Auch der Schritt von 2.2GHz zu 2.4GHz bringt nochmal 8% - sieht also nach nem linearen Anstieg aus.

Die Frage, ob sich der größere Cache bemerkbar macht, ist leider nicht so eindeutig beantwortet worden. Während der eine Client (fah1) nicht vom größeren Cache profitiert, benötigte der Zweite eine 5% kürzere Rechenzeit für 1% der WU. Das ist nicht wenig und entspricht ungefähr 100MHz mehr CPU Takt. Meine Vermutung ist, daß fah1 sowieso alle seine Daten aus dem RAM holen musste und ihm deshalb der Cache egal ist. Hier wäre es nun interessant zu wissen, wie häufig Cache-sensitive WUs überhaupt vorkommen.
Für mich ging es hierbei hauptsächlich darum, ob es wirklich Vorteile bringt, 2x1MB L2 Cache in der CPU zu haben - schliesslich sind die 2*512KB Modelle günstiger und bleiben beim Übertakten kühler - wahrscheinlich werde ich es von der Kühlung abhängig machen. Für ein Lukü System den kleinen Cache und für eine Wakü den heizenden 2x1MB Prozessor.

Hat jemand echt den ganzen Kram gelesen?
Freue mich auf eure Meinung zu dem Thema

Gruß
mibo

PS: Ich habe auch andere Testreihen (ohne die Werte zu notieren gefahren)
1. Habe ich einen F@H Clienten in eine RAMdisk gepackt, weil ich vermutete, daß Festplattenzugriffe die Rechnung bremsen könnten - es gab aber keine messbaren Vorteile mit der RAMdisk.

2. Habe mit den RAM Einstellungen gespielt. 220MHz/CL2/1T gegen 275MHz/CL3/1T. Habe auch hier keinen Geschwindigkeitsunterschied sehen können :-(
 
finde ich sehr informativ und auch einleuchtend. zuwächse durch cache kann ich mir nur vorstellen bei wu's, wo die frametime sehr niedrig ist.
das mit dem ram finde ich sehr interessant. denn dann schau ich mal, dass ich eher ein bisschen mehr takt rauskitzel, als höhere mhz am ram zu haben ;)
 
@Faiko:
Vielleicht kannst du ja ähnlich wie ich ein paar Werte notieren, wenn du mit den Taktraten rumspielst. Vermutlich ist dann alles noch von der bearbeiteten WU abhängig, was natürlich allgemein gültige Aussagen erschwert.
Aber vielleicht lassen sich wenigstens Tendenzen erkennen. Bei meinen RAM-Spielereien hatte ich jedenfalls keine Änderungen bemerkt.
 
Noch ein kleiner Tipp, um die Reproduzierbarkeit der Ergebnisse beim Benchmarking (auf dem selben System) etwas zu verbessern: Den gesamten F@H-Verzeichniszweig sichern (natürlich nur während der Client nicht läuft!) und für jede zu testende Einstellung wieder einspielen. Somit könnt ihr auch Unterschiede zwischen Frames ausschließen. Natürlich kommt ihr dann erst einmal nicht mit den Berechnungen voran, aber das ist ja nur vorrübergehend. Danach könnt ihr alles normal weiterlaufen lassen.

Mich würde ja noch interessieren (wie bereits angesprochen), ob der geringe Einfluss der Speicheroptimierung auch für "große" WUs gilt. Aber z. Z. ist bei der entsprechenden Vergabe ja allgemein Flaute.

Gruß, Gerby
 
@Faiko:
Vielleicht kannst du ja ähnlich wie ich ein paar Werte notieren, wenn du mit den Taktraten rumspielst. Vermutlich ist dann alles noch von der bearbeiteten WU abhängig, was natürlich allgemein gültige Aussagen erschwert.
Aber vielleicht lassen sich wenigstens Tendenzen erkennen. Bei meinen RAM-Spielereien hatte ich jedenfalls keine Änderungen bemerkt.
habe grade totale probleme mit der stabilität meines rechners... ich hoffe, dass ich das in griff bekomme. dann kann ich auch bissel benchen
 
Die Idee mit dem abspeichern der WU Daten ist wirklich gut - da hätte ich folgende Idee:
Wollen wir von jedem F@H Core eine WU (gezipt) hier auf P3D ablegen? Dann könnte jeder diese Benchmark WUs downloaden und bei sich mal ein paar % rechnen lassen und dann die Zeiten posten. Auf diese Art und Weise hätten wir tolle Vergleichsmöglichkeiten:
Win - Linux
P3 - P4 - PM - XP - A64 - ...
Taktfrequenzen - RAM Timing - ...
 
Prinzipiell ist die Idee sicherlich eine Überlegung wert. Es gilt jedoch diverse Hürden zu überwinden:
  • Linux- und Windows-WUs sind leider nicht kompatibel.
  • Es sollten nur WUs sein, die auf allen Systemen (unabhängig von der vorhandenen Hardware) laufen, also keine großen und schon garnicht solche aus dem Advanced-Methods-Pool.
  • Man muss evtl. ein wenig Handarbeit an den Tag legen, damit die Benchmark-WUs a) ohne Beeinflussung der normalen (natürlich unterbrochenen) Berechnung laufen und b) überhaupt laufen. Aber das ist nur eine erste grobe Ausdembauchvermutung.
  • Selbst innnerhalb eines Cores gibt es ziemlich unterschiedlich geartete WUs. Aber vielleicht findet man ja ein paar "representative".

Ich kann mir vorstellen, dass man den Konsolenclient inkl. Config-Datei und Batch zum Aufrufen (mit bestimmten Parametern) in ein Paket packt und in weitere Pakete jeweils WUs (abgespecktes Arbeitsverzeichnis ohne unnötigen Müll).

Soweit ein erstes Brainstorming.
 
ja das hört sich gut an. Was vieleicht mal noch interesant wäre , sind zwei 1481er bei einem Dualcore um so mal zu sehen wie der ramtakt skaliert.
 
Moin,

@Gerby19:
gibts schon Erfahrungswerte, welches System schneller ist bei gleicher WU-Nr.
(Du sagts ja, die sind nicht kompatibel ??? ) - oder hab ich da jetzt was durcheinander geworfen ??


bis denn
 
Ich hatte noch keine Zeit weiter zu testen, habe aber schon ein paar WUs zwischengespeichert, um sie zum benchen benutzen zu können.
Ich bin noch nicht davon überzeugt, daß die WUs inkompatibel sind. Die einzelnen Cores sind natürlich abhängig vom System (Win/Linux/...)
 
Moin Moin,

wollte mal fragen wie lange bei FahMon schon das Benchmarkergebnis ausgegeben wird?
Ist mir nie wirklich aufgefallen... :-[ ??? :]

[08:05:43] Loaded queue successfully.
[08:05:43] + Benchmarking ...
[08:05:46] The benchmark result is 7084
[08:05:46]
[08:05:46] + Processing work unit
[08:05:46] Core required: FahCore_78.exe

[08:05:43] Loaded queue successfully.
[08:05:43] + Benchmarking ...
[08:05:45] The benchmark result is 6988
[08:05:45]
[08:05:45] + Processing work unit
[08:05:45] Core required: FahCore_65.exe
[08:05:45] Core found.

Soviel zum Benchmark eines 4200+...
 
@Oberst K:
Ich meine, im offiziellen F@H Forum gelesen zu haben, daß dieser Benchmark mal zu Testzwecken eingebaut wurde, sich nicht bewährt hat, und deshalb heute ignoriert wird.

Edit: Siehe http://fahwiki.net/index.php/Client_benchmark
 
Zuletzt bearbeitet:
Ah Danke, ist also doch schon bissl älter - naja war ein guter Versuch... ;D
 
@Gerby19:
gibts schon Erfahrungswerte, welches System schneller ist bei gleicher WU-Nr.
(Du sagts ja, die sind nicht kompatibel ??? ) - oder hab ich da jetzt was durcheinander geworfen ??

Sorry für die späte Antwort. War 'ne Woche nicht da und bin dieser Tage auch etwas wenig mit freier Zeit bestückt.

Irgendwo im offiziellen F@H-Forum gab es mal entsprechende Diskussionen. Jedoch kann ich mich nicht mehr genau an das Ergebnis erinnern. Wahrscheinlich deswegen, weil es wohl keinen signifikanten Unterschied gibt?! Das Problem ist halt, dass man nicht ein und die selbe WU zum Vergleich heranziehen kann.

Gruß, Gerby
 
THX ;D ,

- dann werd ich die systeme also nicht so schnell auf Linux umstellen...


bis denn
 
*ausgrab*
Hat inzwischen jemand genauere Erkenntnisse darüber wieviel 2x 1 MB L2-Cache gegenüber 2x 512 kB bringen? Ich kauf mir demnächst einen X2 für den Sockel AM2 und die CPUs mit mehr Cache kosten ja doch ne ganze Ecke mehr.
 
*ausgrab*
Hat inzwischen jemand genauere Erkenntnisse darüber wieviel 2x 1 MB L2-Cache gegenüber 2x 512 kB bringen? Ich kauf mir demnächst einen X2 für den Sockel AM2 und die CPUs mit mehr Cache kosten ja doch ne ganze Ecke mehr.
Hi TiKu! (Ja, mich gibt's noch... *oink*)

Neulich habe ich selber mal wegen dem Einfluss der Cache-Größe recherchiert. In dem Fall jedoch beim Single-Core-A64. Ein Unterschied ist bei F@H wohl nicht auszumachen.

Die Info habe ich von fahinfo.org. Ist jedoch nicht unbedingt repräsentativ. Am besten Du schaust selber mal nach (Click - Achtung: Eingabehinweise über der Maske beachten, ist nämlich etwas unintuitiv.)
 
Der Cache lohnt sich nicht.
 
Jo, das Gefühl hab ich langsam auch. Umso besser, da kann ich einiges sparen.

@Gerby19: Ah, er lebt noch! *oink* ;D
Schwierig aus der Seite etwas rauszulesen, da die Daten, die man eingeben kann einen direkten Vergleich der Cache-Größen nicht zulassen. Optimal wäre ja ein Vergleich zweier Windsor-Kerne mit gleichem Takt und unterschiedlichen Caches, aber die Eingabemaske fragt ja gar nicht nach dem Cache, weshalb man effektiv 2x die gleiche CPU eingibt und demzufolge nichts brauchbares erhält.
 
*ausgrab*
Hat inzwischen jemand genauere Erkenntnisse darüber wieviel 2x 1 MB L2-Cache gegenüber 2x 512 kB bringen? Ich kauf mir demnächst einen X2 für den Sockel AM2 und die CPUs mit mehr Cache kosten ja doch ne ganze Ecke mehr.

Nichts. Rein gar nichts. ;) Takt ist alles was zählt und bei manchen Projekten auch noch die Performance der Speicheranbindung. Habe genug unterschiedliche A64 und XPs im Einsatz um das zu beurteilen. :)
 
Ich veröffentliche anhand eines Amber Core: 1808 Benchmarkergebnisse:

Kubuntu Linux 6.10 i386:
AMD Athlon 64 X2 3800+
@ 2200 220 MHz 20:35:00
@ 2600 173 MHz 17:26:40
@ 2800 140 MHz 16:13:20
@ 2900 150 MHz 15:55:00 <- nicht Prime Stabil
(CPU/RAM)

Rechnerisch ergeben sich hiermit präzise: 4:21:40 die damit eingespart werden können oder anders ausgedrückt: 22,67%

von 2200 MHz auf 2800 MHz sind es ebenfalls: 21,43% somit sieht man hier wiederum, dass die Zeit mit der Taktfrequenz gut mitskalliert und das der RAM Takt keine nennenswerte Beeinflussung hatte.
 
In derzeit wo mein AMD Athlon XP 2600+ bei 35% liegt, haben die anderen zwei schwachen Rechner mit:
AMD K6 3%
P1 133 1% erwirtschaftet.
 
Zurück
Oben Unten