DirectCompute Benchmark

Habe gerade noch eine interessante Entdeckung gemacht:
Da der Lüfter beim OpenCL Benchmark lauter wurde als bei CS habe ich einmal GPU-Z beobachtet und siehe da, die GPU Auslastung beträgt im CS Benchmark nur ~70% wohin gegen der OpenCL Benchmark eine Last von 98 / 99 % erzeugt. Ich sehe darin eine sehr effiziente / rosige Zukunft für OpenCL auf AMD Radeon Karten. Endlich ist ein Kraut gegen CUDA gewachsen. *great*
 
Auch mal aktualisiert:



Stinkt ja ganz schön gegen die Radeons ab. ;)
 
Zuletzt bearbeitet:
Habe gerade noch eine interessante Entdeckung gemacht:
Da der Lüfter beim OpenCL Benchmark lauter wurde als bei CS habe ich einmal GPU-Z beobachtet und siehe da, die GPU Auslastung beträgt im CS Benchmark nur ~70% wohin gegen der OpenCL Benchmark eine Last von 98 / 99 % erzeugt. Ich sehe darin eine sehr effiziente / rosige Zukunft für OpenCL auf AMD Radeon Karten. Endlich ist ein Kraut gegen CUDA gewachsen. *great*

Das ist Interessant!
Wobei gegen CUDA ist ja nicht wirklich passend, immerhin ermöglich nVidia openCL via. CUDA! *buck*

Trotzdem klasse Werte von den ATI Karten! ;)
 
Ich weiß wie gesagt nicht, was der Unterschied bei der Berechnung ist, aber im Stream SDK 2.0 findet sich eine eigene DLL namens OpenCL.dll. Wir die GPU nicht normal über CAL (amdcal.dll) befeuert?
Oder ist OpenCL.dll nur amdcal.dll vorgeschaltet?
 
@ pollux_9t

Das entzieht sich nun meiner Kenntniss!
Schau dir mal die infos zu openCL bei dem Bench an.
Meine GTX285 kann 30 units und 9 Extensions (Erweiterungen) ausführen.
Was das jetzt genau bedeutet müsste ich erst erfragen...*noahnung*

MfG
 
@ pollux_9t

Das entzieht sich nun meiner Kenntniss!
Schau dir mal die infos zu openCL bei dem Bench an.
Meine GTX285 kann 30 units und 9 Extensions (Erweiterungen) ausführen.
Was das jetzt genau bedeutet müsste ich erst erfragen...*noahnung*

MfG


Das komische ist nur, dass AMD erst Beta Support bietet und meine Radeon HD4890 (derzeit) nur 10 Units und keine Extensions beherrscht aber 3 bis fast 4x schneller ist als deine GTX285. Meine Karte hat eine theoretische Leistung von 1600 GFlops. Das wäre aber nur 1,5x schneller als Deine theoretische Spitzenleistung. Fragen über Fragen...
 
Das komische ist nur, dass AMD erst Beta Support bietet und meine Radeon HD4890 (derzeit) nur 10 Units und keine Extensions beherrscht aber 3 bis fast 4x schneller ist als deine GTX285. Meine Karte hat eine theoretische Leistung von 1600 GFlops. Das wäre aber nur 1,5x schneller als Deine theoretische Spitzenleistung. Fragen über Fragen...

Bei DirectComputing ist deine fast 4x schneller!
Das kann an folgendem liegen:
- OS, ich hatte Vista x64
- Energiesparmodus, war bei mir aktiv für die Grafikkarten.
- SLI beeinträchtig ungemein mein DC Score, müsste nochmal ohne testen.

openCL spiegelt so ziemlich genau die Rohleistung unserer Karten nieder:
~2500 vs. 2000 (MKernels/s)
Allerdings Win7 vs. Vista! ;)
 
Ich glaube weniger, dass Vista einen derart dramatischen Unterschied macht.
Eine Vermutung, die ich noch nachprüfen muss (nach der aktuellen Folding WU), ist, dass OpenCL alle kompatiblen Prozessoren im System überprüft wohingegen DC nur die GPU prüft. Deswegen könnte mein Dual-Core Athlon die Radeon auch ausbremsen. (Ich will endlich, dass mein RAM kommt, damit ich endlich meinen 965 C3 in Betrieb nehmen kann :( )
.
EDIT :
.

Der Ultra-Threaded-Dispatch-Prozessor erstellt einzelne Threads, die aus mehreren Befehlen bestehen. Dabei werden mehrere Threads gesammelt, damit die Shaderprogramme in der bestmöglichen Reihenfolge bearbeitet werden können. Die ALUs bauen sich aus zehn SIMD-Blöcken zusammen (Single Instruction, Multiple Data; also auf mehrere Daten kann zeitgleich ein und dieselbe Instruktion angewendet werden), die über jeweils 16 einzelne Shaderkerne sowie einen Textur-Cluster verfügen.

Quelle: http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_ati_radeon_hd_4850_cf_hd_4870/3/

Das könnte die max Units 10 erklären. Wie wird dann aber ein GT200 zerlegt?
 
Ja, aber die FMA Ops ist nur der Indikator dafür, wieviele Double Precision OPs die Karte je Takt abarbeiten kann.

So noch eine interessante Entdeckung: Die Last ist mit Version 0.44 sowohl bei DC als auch bei OpenCL gleich ABER der Amperewert stieg von 29,1 auf 57,8 an. Dadurch erhöhte sich auch die Temperatur (siehe GPU-Z Screenshots)

DirectCompute:
DCload.png


OpenCL:
OpenCLload.png


EDIT:

Der OpenCL Wert bleibt sehr stabil, wohin gegen DC merklich schwankt. Es wird nur die GPU getestet bei OpenCL.
 
Zuletzt bearbeitet:
Ok, mit Version 0.44.5b funktioniert der OpenCL Benchmark wohl nun auch mit meiner HD 4670

ATI Radeon HD 4600 Series @ 750 MHz (1002 / 9490 / 2681043)
AMD Phenom(tm) II X4 B50 Processor (4 logical CPUs)

DirectCompute: N/A
OpenCL: C751.8
CPU: N/A

ATI Radeon Kernel Mode Driver
atikmdag 8.01.01.984
Windows 7 x64 Ultimate Edition (build 7600)

Bei 96% war auch die Temperatur der karte bei genau 96°C angekommen ;D


Nachtrag:

Das ist ja mal interessant, die OpenCL Wertung scheint fast genau der GPU Taktfrequenz zu entsprechen bei der HD 4670. Habs jetzt nochmal mit 820Mhz getestet:

ATI Radeon HD 4600 Series @ 820 MHz (1002 / 9490 / 2681043)
AMD Phenom(tm) II X4 B50 Processor (4 logical CPUs)

DirectCompute: N/A
OpenCL: C821.5
CPU: N/A

ATI Radeon Kernel Mode Driver
atikmdag 8.01.01.984
Windows 7 x64 Ultimate Edition (build 7600)

und mit 650Mhz
ATI Radeon HD 4600 Series @ 650 MHz (1002 / 9490 / 2681043)
AMD Phenom(tm) II X4 B50 Processor (4 logical CPUs)

DirectCompute: N/A
OpenCL: C653.7
CPU: N/A

ATI Radeon Kernel Mode Driver
atikmdag 8.01.01.984
Windows 7 x64 Ultimate Edition (build 7600)
;D
 
Zuletzt bearbeitet:
@Patata
Könntest du mir mal verraten, ob deine GPU auch als RV770 bezeichnet wird? Bei mir ist eigentlich ein RV790 verbaut. Wieviele max Units kann deine Karte verarbeiten?
 
Erkannt wird sie als ATI RV730
OpenCL Max Units = 8
 
Danke...
Mal sehen ob sich da ein Muster für die interne Organisation ableiten lässt.
 
So, dann lass ich mal die Hosen runter! ;D

955 BE @ 3,6GHz - 2x2GB DDR2-1066 5-7-7-24-31 2T unganged - 2x GTX285 1GB

Vista x64 (SLI & PhyX aktiv):


Win 7 RC (SLI inaktiv PhysX aktiv):


Win 7 RC DC combined (SLI inaktiv PhysX aktiv):

:o nur 40 Punkte (DC Score) mehr für beide Karten? openCLmacht das aber besser!

Win 7 RC openCL Single-Score (SLI & PhysX inaktiv):


Win 7 RC openCL Single-Score (SLI inaktiv & PhysX aktiv):


Damit openCL beide Karten zu jeweils 50% nutzt muß man entweder PhysX aktivieren, oder einen Monitor an der 2 Karte anschließen.

Auf das sich die ATI user an meinen Scores erfreuen! *buck*

MfG
 
Das mit dem zweiten Monitor dürfte mit Win7 zusammenhängen. Bei folding@home braucht man ja auch einen Bildschirm / Dummyanschluss für jede GPU.

Nur das mit den 50 % load finde ich komisch... aber naja dein SLi meine Ampere. Mich überrascht schon gar nichts mehr bei diesem Programm...

P.S.: *freu* *party* :w_feiern:
 
@ pollux_9t

;)
Hab mir sagen lassen das ein Programm, wenn es mit der Ziffer 0 anfängt, sich im Beta zustand befindet.
Pat hat es ja extra mit einem kleinen b hinten dran nochmal deutlich markiert. (0.44b)
Von daher ist es mir klar das es hier bugs oder falsche zuweisungen gibt, aber solange das niemand testet wie soll man die bugs dann entdecken?

Dafür das es noch Beta ist, scheint AMD ganze arbeit beim Stream SDK geleistet zu haben, auch das die älteren Karten jetzt damit funktinoieren, spricht dafür!

MfG
 
XFX ATI Radeon HD 5850 XXX Series @ 775 MHz (1002 / 6899 / 29701682)
AMD Phenom(tm) II X4 940 Processor @ 3,5 Ghz (4 logical CPUs)

DirectCompute: D7253.9
OpenCL: C3241.7
CPU: M35.8

ATI Radeon Kernel Mode Driver
atikmdag 8.01.01.984
Windows 7 x64 Ultimate Edition (build 7600)
 
Das nenn ich mal Skalierung *great*
 
@Windhund warum ist dein RAM unganged. das macht dein System übelst langsam da der RAM mit 2x64bit angesprochen wird. schalt mal im Bios auf ganged und den ram eventuell auf 800 sollte es instabil werden. dann werden alle 4 Riegel mit 128 bit angesprochen.

das bringt bei mir unter windows 7 64bit eine merkliche steigerung zumindest läuft das windows flüssiger und bootet schneller. games etc hab ich noch nicht getestet.
 
Unganged ist bei AMD nicht gleich Singlechannel und sogar besser wenn vieles gleichzeitig gemacht wird, da ein Speicherkontroller lesen kann und der andere gleichzeitig schreiben kann. Es gibt nicht viel Unterschied in der Bandbreite.
 
@ tspoon

Sobald die Anwendung Multithreaded ist liegt der unganged Mode vorne:


Hab es mehrmals duchlaufen lassen auf die 38.0 bin ich nicht gekommen!
Lade dir mal das Sisoftware Sandra runter und vergleiche mit dem SpeicherBandbreiten Test, ganged und unganged. ;)

MfG
 
@ Windhund
Haben deine Karten Sensoren, mit denen sich die Ampere der Phasen auslesen lassen? Wenn ja könntest Du versuchen, meine Beobachtungen zur Ampereschwankung zwischen DC und OpenCL zu bestätigen? Bei mir heißt der Sensor "VDDC Current".

lg
 
@ pollux_9t

Nein haben sie leider nicht!
mit GPUz 0.3.8 habe ich 3 neue "Load" Anzeigen bekommen: GPU Load; Memory Controller Load und Video Engine Load.

Könnte man eine davon alternative nutzen?

MfG
 
hhmm... Da bin ich mir nicht sicher. Bei mir erzeugen beide Benchmarks die gleiche Last, aber OpenCL belastet die Phasen doppelt so stark.
Da fällt mir ein, bei OpenCL war die Core Temperatur um ca. 10 Grad höher. Die GTX285er müssten aber einen Sensor für die Board Temperatur haben. Hast du vielleicht auch für die Phasen einen Tempsensor? Sonst hör einfach mal ob der Lüfter lauter wird *buck*
Vergleiche mal die Werte Core Temp, GPU Load und Board Temp. Lass sie aber zwischendurch abkühlen.

lg
 
Zurück
Oben Unten