Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?

Ist das ein Rechendurchlauf pro Kern?
 
@Opteron
Den Cache Test mache ich noch. Danke für den ausführlichen Hinweis!

Ich habe nun mit meinem FX-6100, der ab Werk mit 3,3 GHz getaktet ist (Gigabyte GA-990FXA-D3 und HD6850), einige Tests zum Undervolting durchgeführt. Der Minimalwert der Spannung ist jeweils 0,05 Volt höher als die Blue Screen- bzw. Absturzspannung. Der Ausgangswert für den Verbrauch ist 3,3 GHz und 1,25 Volt Werkseinstellung, mit 169 Watt Verbrauch unter Fritz Benchmark mit 6 Kernen. Alle Stromsparmechanismen sind aktiv.

Bulldozer_Spannung.jpg


1. Man sieht deutlich, dass die Standardspannung um ganze 0,2 Volt zu hoch ist, was zu Einsparungen von 169-140=29 Watt führen kann. Das sind 38 % mehr, als eine Taktfrequenzverdoppelung, siehe 6. .
2. Ab ca. 2,8 GHz sind 0,1 Volt je 300 MHz zusätzlich notwendig um die Taktfrequenz anheben zu können. Bis 2,8 GHz arbeitet Bulldozer nahezu mit IDLE Spannung! Etwa dort scheint das Optimum der Fertigung zu liegen.
3. 3 nicht aktive Kerne sparen etwa 15 Watt, wenn alle Module arbeiten. Der Verbrauch hoppst dabei, so dass man davon ausgehen kann, dass auch dort Stromsparmechanismen greifen, trotz halber Auslastung aller Module.
4. Der optimale Kompromiss aus Leistung und Verbrauch liegt bei 3,3 GHz, also auf Standardtakt.
5. Eine Anhebung der Turbospannung auf 1,35 Volt, ist geradezu aberwitzig, wenn 4 GHz auf allen Kernen unter 1,25 Volt stabil läuft.
6. Der Verbrauch stieg bei konstant 1,05 Volt von 1,6 GHz auf 3,3 GHz, nur durch Takterhöhung, um 21 Watt unter Volllast. Das scheint nicht überproportional zu sein, sondern im bekannten linearen Rahmen zu verlaufen.

Ergänzung:

1,1 Volt undervolted i5-760 auf 2,8 GHz auf ähnlich sparsamem Gigabyte P55 Mainboard, benötigt 120 Watt bei 8110 Punkten. Diesen Verbrauchswert erreicht der FX-6100 erst bei 2,5 GHz und Idle Spannung. Dann bringt er aber nur 70 % der Rechenleistung eines "alten" i5 in Fritz.
 
Zuletzt bearbeitet:
Ich bin schon etwas verwundert, dass die Leistungsaufnahme nicht kräftiger sinkt, wenn die Spannung auf 0,85V fällt. Die Performance/Watt müsste eigentlich beim Undervolting kräftig zunehmen, geht doch die Spannung quadratisch in die Energieaufnahme ein. :]
 
Herr Melin:
Interessante Ergebnisse. Die zeigen sogar einen "sweet spot". Und unter welchen Bedingungen kommt der BSOD bei zu niedriger Spannung? Last/Idle?

Ich bin schon etwas verwundert, dass die Leistungsaufnahme nicht kräftiger sinkt, wenn die Spannung auf 0,85V fällt. Die Performance/Watt müsste eigentlich beim Undervolting kräftig zunehmen, geht doch die Spannung quadratisch in die Energieaufnahme ein. :]
Es sind noch fixe Anteile außerhalb der CPU dabei. Ohne Speicher, Board, Platte, Wandler, NT usw. hat der Prozessor im Idle sicher keine 80W.
 
Ich bin schon etwas verwundert, dass die Leistungsaufnahme nicht kräftiger sinkt, wenn die Spannung auf 0,85V fällt. Die Performance/Watt müsste eigentlich beim Undervolting kräftig zunehmen, geht doch die Spannung quadratisch in die Energieaufnahme ein. :]

Du musst von 80 Watt Idle ausgehen. Dabei schluckt Bulldozer nur noch 4 Watt incl. Wandler lt. HT4U. Demnach verbraucht der FX bei 2,2 GHz und 0,85 V noch 36 Watt unter Volllast. Das ist schon in Ordnung, oder nicht?
 
@Opteron
Den Cache Test mache ich noch. Danke für den ausführlichen Hinweis!
Jo und das wird noch ausführlicher ;-)

Teste am Besten alles unter dem Karteireiter "Microarchitecture" in den Defaulteinstellungen mit den Customwerten.

Ausnahmen:

a) Den Decodertest 3x zum Batch hinzufügen, jeweils für die 3 Modi ALU/FPU/MMX einzeln (jeweils auswählen und zum Batch hinzufügen).
Die Instruktionen kannst Du mal auf default (NOP, WAIT, EMMS) lassen. Eventuell hat Dresdenboy da noch nen Sonderwunsch, aber so groß ist die Auswahl leider nicht :(

b) Max. Blockgröße bei den Cachemessungen anstatt auf 1024 auf 12288 (12MB) stellen, sollte groß genug sein, um über den 2+8MB = 10MB des L2+L2 zu liegen.


Wenn Du dann alles zum Batch hinzugefügt hast, kannst DU loslegen, zurück auf den "General" Reiter klicken, dort ein Häkchen bei Report erzeugen setzen, und los gehts ;-)

Die Screenshots werden dann im RMMA Verzeichnis abgespeichert. Die kannst Du dann auf abload hochladen. Alternativ kannst Du auch noch den ganzen Batchrun unter "Results" als .rmz Datei abspeichern und bei http://www.mediafire.com hochladen.
Falls Dir das mit den Massen an Bildern zu zeitaufwendig ist, wäre Letzteres die Optimallösung ;-)

Merci

Alex

P.S: TUrbocore und Stromsparsachen natürlich aus, gerne mit 2,2GHz NBTakt ;-)
 
Zuletzt bearbeitet:
Also was Microsoft da als neuen Scheduler für Win8 gebastelt hat, sieht gut aus:

Windows 8 Developer Preview
Fritz Chess 2 Threads, Turbo aktiv:

1CU/2C : 3600 Punkte
2CU/2C : 4060 Punkte
Win7 Ergebnis auf 2CU/2C ohne Turbo : 3700 Punkte
Win7 Ergebnis mit 2 Threads ergibt wildes Gehopse der threads und Zahlen weit unter 4000.
Dagegen unter Win8, die 2 threads auf alle Kerne losgelassen: 4144 Punkte

Bulli, du bist zu früh :D

Opteron hat mich darauf hingewiesen, dass synthetische Ergebnisse, die FPU miteinbeziehen u.U. in die Irre führen können, da Win8 evtl. keine x87 Befehle mehr verarbeitet/interpretiert/?. Was Fritz da fabriziert weiß ich nicht, Also lässt sich dieses Ergebnis nicht unbedingt 1:1 mit Win7 vergleichen.

Opteron bat mich s.o. genannten rmmu-Test durchzuführen. Der führte auf meinem Gigabyte Board unter Win7 zu sägezahnartigen Verlaufsmustern, auch beim Festpinnen an einen Kern. Unter Windows 8 scheint alles glatt gebügelt. Darüber hinaus gibt es im Taskmanager zu jedem Kern die Info "core parked", wenn der Kern gerade schläft. Großartig! 8)

Ich kann im BIOS alles an Energiesparmaßnahmen ausstellen und C&Q deaktivieren, Resultat unter Win7 ist...gar keins. Die Kerne schalten munter weiter runter auf 1,4 GHz.

Unter Win8, läuft das wie es muss. Und wenn Idle angesagt ist, heißt es auch Idle und bleibt dort. Unter Windows 7 sieht man ein nervöses Zucken aller Cores in Takt und Auslastung. Auf meinem Strommessgerät steht unter Win8 nahezu dauerhaft 82 Watt. So muss es sein!

Allerdings Vorsicht!!! Windows 8 scheint etwas mit dem Chipsatz, der externen Northbridge, was auch immer... anzustellen. Der Chipsatzkkühler wird heißer unter Win8 als normal. Das führt dazu, dass meine Standardeinstellung von 2200 MHz NB instabil wird und zu Bildflackern und chrashes to desk führt. Habe einen Kühler dran gestellt und jetzt läufts.

Ich bearbeite gerade noch einen Test vor, der alle Szenarien miteinbezieht. Dann sieht man, dass die Lage für Bulldozer unter Windows 7 gar nicht komplizierter und besch... sein kann.
 
Interpretiere ich das richtig und allein der Wechsel des OS/Shedulers bringt bei Standardeinstellung in dem Test schon gute 10%?
 
die NB befindet sich in der CPU und nicht auf dem chipsatz von daher sollte wohl der SB sein.
 
die NB befindet sich in der CPU und nicht auf dem chipsatz von daher sollte wohl der SB sein.

Ja ich weiß, das spiegelt den allgemeinen Stand zu Bulldozer wider. Aber die alte Northbridge erfüllt weiterhin Funktionen. Das habe ich gerade in einem Artikel mit Quelle unbekannt gelesen. Jedenfalls gibts zwei große Kühlkörper auf dem Board. An dem wo NB dran steht, gibts unter Win8 erhöhte Aktivität. Was da letztendlich los ist, keine Ahnung.
 
Naja, das ist der PCIe Kontroller .. eventuell sind die Treiber noch unfertig, und können den Hypertransportkontroller und/oder die PCIe Lanes im CHipsatz dort noch nicht in den Stromsparmodus schalten.

Aber davon sollte dann eigentlich die NB der CPU unbetroffen sein ... *kopfkratz

Hier übrigens Melins Latenzgraph:

sauberayne.png


Unter Win8 wirklich butterweich, so siehts gut aus :)
Man erkennt sogar das moduleigene L3 Cachesegment zw. 2 und 4 MB. Danach - bis 8MB gehts in die 3 anderen L3 Segmente und dann *wuuups* ab ins RAM.

Aber man sieht da wohl BDs Hauptproblem. Das anschwellen ab 128kB L2 Größe ist nicht gut, am Ende sinds 38 Takte *chatt*. Möglich, dass es noch ein Meßfehler ist, es wird vermutet, dass das der L1 TLB ist, aber dann müßte es bei ja K10 genauso ausschauen, was es eher nicht tut. Wer noch mit nem K10 gegentesten kann, bitte durchführen. Links sind ja oben zu finden.

Test ist unter Microarchitecture -> D-Cache Latency. Dort die Standardwerte verwenden, nur die Blocksize von 1024 auf 12288 erhöhen.
 
Naja, das ist der PCIe Kontroller .. eventuell sind die Treiber noch unfertig, und können den Hypertransportkontroller und/oder die PCIe Lanes im CHipsatz dort noch nicht in den Stromsparmodus schalten.

Aber davon sollte dann eigentlich die NB der CPU unbetroffen sein ... *kopfkratz


Könnte auch irgend etwas mit dem Beta-AMD Grafikkartentreiber zu tun haben. Jetzt bitte nicht schlagen, falls die Vermutung zu dämlich ist. Wenn ich einige Übertaktungseinstellungen für NB und HT vornehme, den PCI Takt auf 100 MHz feststelle, dann wird es trotz Win7 stable, unter Win8 höchst instabil. Es tritt Bildflackern auf. Gehe ich aber vom Login Bildschirm in den standby, funktioniert es danach besser. Es bleibt aber wackelig.
 
Ah, ja der Grafiktreiber könnte es auch sein, oder vielmehr der AMD Chipsatztreiber.
Ist halt noch alles ein bisschen beta ^^
Solange es ein etxra Lüfter löst, solls uns nicht weiter interessieren ;-)
Ich packs dann mal

Gute Nacht
 
Interessant finde ich vor allem das es scheinbar nur die Random Zugriffe betrifft und dieses stetige ansteigen der Latenz auch den L3 zu betreffen scheint.
Das Durchkegeln der Last durch alle Kerne kann ich unter Windows 7 allerdings auch bei meinem X6 @ AM3+ Mainboard beobachten. Ob da ein womoeglich erscheinendes Sheduler Update auch abhilfe schaffen koennte?

Vielleicht finde ich spaeter noch Zeit der Cache Architektur meines X6 auf den Zahn zu fuehlen. :)
 
Fifa 2012 ist ein gut zu testender Kandidat für ein Dualcore-Programm, welches Schwächen im Windows 7 Scheduler aufdeckt, Möglichkeiten zur Optimierung durch 3CU/3C bietet und offensichtlich durch Windows 8 und Turbo verbessert werden kann. Im Vergleich dazu ein Phenom II bei gleichem Takt von 3,3 GHz.
Bulldozer_Fifa2012_win7_win8.jpg


Vergleiche lassen sich nun überall anstellen:

Rot ist der aktuell und überall getestete Fall. Ich habe einmal in Klammern dahinter geschrieben, wie sehr dieser Test durch das Herumhoppsen schwankt. Mal kann durch Zufall eine Kernkombination gefunden werden, die relativ gut ist. Ein anderes Mal sehen wir 10 % Leistungseinbruch.

Grün ist der Fall, dass wir die Stromersparnis durch 3CU/3C ausnutzen und auf 3,9 fest übertakten. Das scheint Stand heute, für Software, die weniger als 3 Kerne nutzt, unter Windows 7 optimal.

Dann sehen wir ganz unten links, dass Windows 8 fast den übertakteten Grün-Optimalfall erreicht und das Ganze intelligent mit Turbo. Bulldozer ist unter Windows 8 zu Hause.

Was Phenom II allerdings an min fps unter Win 8 veranstaltet, stellt alles in den Schatten. Welchen Anteil daran der Grafiktreiber hat oder dass FX6 unter Win7 einfach generell schwächer ist, kann man nicht beurteilen. Dafür sind einfach zu viele Variablen im Spiel.
 
Zuletzt bearbeitet:
Entweder stelle ich mich zu doof an oder RightMark mag meinen Rechner nicht. *kopfkratz
Erst meckert das Programm beim Start das es den RTCore64 Treiber nicht laden kann und dann passiert nach dem Erstellen der Batch und dem Drücken auf den Run Knopf exakt garnichts. *noahnung*

Edit: OK, war zu doof und hatte das mit dem Austausch der Datei übersehen. *g*
Mein kleiner X6 mit Windows 7 zum Vergleich
 
Zuletzt bearbeitet:
Hi,

hab hier schon eine Weile nicht mehr gepostet und lese nur sporadisch. Von daher bitte ich um Entschuldung falls jenes schon gepostet wurde:

Techreport hat nen Test gemacht mit verschiedenen Thread/Core-Zuweisungen:
http://techreport.com/articles.x/21865

Phoronix hat ausserdem ne ganze Reihe von Linux Benchmarks:
Allgemeiner Vergleich: http://www.phoronix.com/scan.php?page=article&item=amd_fx8150_bulldozer&num=1
Konzentration auf das Multi-Core Scaling: http://www.phoronix.com/scan.php?page=article&item=amd_bulldozer_scaling&num=1

Zusammenfassend kann man sagen, dass die Architektur bei weitem nicht so schlecht ist wie sie in den anfänglichen Reviews gemacht wurde.

Pat
 
Phoronix ist schon bekannt, techreport aber von gestern Abend und daher (für mich) neu. Danke für den Hinweis.
 
Inpai-China hat den FX-8150 gegen Phenom II X6 / X4 und i5-2 bei gleicher Frequenz, 3,3 GHz getestet.
Interessanter Test, wer lesen mag -> Same Frequency!FX-8150 PK X6/X4/i5

Gruß Lehmann
 
Hört sich Interessant an was ihr da Treibt, kann ich evt. mit meinem X6 1100T und 16GB DDR3 auf AM3+ Brett Gigabyte 990FXA UD3 (OS Win7x64SP1), auch Mitspielen? Wenn ich was Testen soll gern, was soll ich machen...
 
Sooo schlecht schaut BD in dem Vergleich garnicht aus.
IMHO war der größte Fehler von AMDs Marketing den als 8-Kerner zu verkaufen und nicht als 4-Kerner mit SMT bzw. CMT.
Nebenbei bleibt AMD noch den Beweis schuldig wieso das Die so verdammt groß geworden ist im Verhältnis. Ich meine, ein BD-Modul ist so groß wie 2 K10-Kerne, besitzt aber nur 1 "fette" FPU im Vergleich zu den 2en des K10. Daneben steht ein 4-fach Decoder in BD gegen zwei 3-fach Decoder in den K10-Kernen. Und trotz des recht großen shared L2-Cache hat K10 in dem Vergleich noch alles andere als wenig Cache.
Also AMD, was habt ihr mit dem Transistoren angestellt? *noahnung*
 
Zurück
Oben Unten