AMD Quad-Core Opteron mit Bestwerten beim SPECweb2005 Benchmark

Nero24 · 29.07.2008

<div class="newsfloatleft"><a href="http://www.planet3dnow.de/photoplog/index.php?n=1985"><img src="http://www.planet3dnow.de/photoplog/file.php?n=1985" border="1" alt="HP ProLiant DL785 G5 Server"></a></div>Der AMD Quad-Core Opteron mit Barcelona-Kern hatte bekanntlich keinen guten Start in seine Karriere. Zuerst die relativ niedrigen Taktfrequenzen, dann der TLB-Bug, der zu einem mehrmonatigen Lieferstopp der Prozessoren führte und letztendlich auch noch die Streichung sämtlicher Quad-Core Opteron Ergebnisse aus den Top-Listen der SPEC.

Inzwischen jedoch ist der Quad-Core Opteron in der verbesserten Version B3 auf dem Markt und kann endlich das tun, wofür AMD ihn vorgesehen hatte: den riesigen Markterfolg des ersten Opteron fortführen. So hat AMD bekannt gegeben, dass sowohl 2-Sockel-, wie auch 4-Sockel-Systeme mit dem AMD Quad-Core Opteron 2356 bzw. 8356 neue Bestwerte im SPECweb2005 Benchmark aufgestellt haben. Da der Opteron seit seiner Markteinführung im Jahr 2003 aufgrund seiner Konzeption (IMC, HyperTransport) und seiner gegenüber Servern mit traditionellen Server-Prozessoren (SPARC, Itanium, Alpha) geringen Anschaffungskosten insbesondere bei den Web- und Datenbank-Servern sehr beliebt war, dürfen die Benchmark-Rekorde in dieser Disziplin als wichtiges "we are back" Zeichen gewertet werden.

Der SPECweb2005 testet die Leistungsfähigkeit des Systems im Bereich PHP, JSP, HTTP, HTTPS, SSL, Caching für Webobjekte (Images, etc.) und vieles mehr. Oder anders ausgedrückt: alles, was ein Standard-Webserver eben so können muss, inklusive Shopping-System mit Warenkorb und Banking.

Das getestete 2-Sockel System war ein HP ProLiant DL385 G5 mit AMD Quad-Core Opteron 2356, der mit 2,3 GHz taktet. Er erreichte einen Wert von 30007 Punkten. Das 4-Sockel System war ein HP ProLiant DL585 G5 mit AMD Quad-Core Opteron 8356 und ebenfalls 2,3 GHz Takt. Dieser "Enterprise-Server" erreichte 43854 Punkte. Ferner vergaß AMD nicht hervorzuheben, dass es sich um CPUs mit lediglich 75 W <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1189245464">Leistungsaufnahme nach ACP</a> handelte. Zudem besaß das 4-Sockel System eine 10 Gigabit Netzwerk-Anbindung, was gemäß AMD zeige, dass das System in der Lage ist Nutzen aus diesem enorm schnellen Netzwerk zu ziehen.

<b>Links zum Thema</b><ul><li><a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=344726">Pressemitteilung</a></li><li><a href="http://www.amd.com/us-en/Processors/ProductInformation/0,,30_118_13223,00.html?redir=SWSOP" target="_blank">AMD Opteron™ Processor Competitive Server and Workstation Benchmarks</a></li><li><a href="http://www.spec.org/osg/web2005/results/res2008q2/web2005-20080409-00107.html" target="_blank">SPECweb2005: Hewlett-Packard: HP ProLiant DL385 G5</a></li><li><a href="http://www.spec.org/osg/web2005/results/res2008q3/web2005-20080618-00112.html" target="_blank">SPECweb2005: Hewlett-Packard: HP ProLiant DL585 G5</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1196941037">AMD bestätigt weitgehenden "Barcelona"-Auslieferungsstop</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1205939430">HP Quad-Core Opteron Enterprise Class Server startet im Mai</a></li></ul>

Shai Hulud · 29.07.2008

Mehr gute Nachrichten bitte!

AMD_Baer · 29.07.2008

Kann man nur hoffen das bei den Entscheidern der Zug für AMD nicht längst abgefahren ist.

gaussmath · 29.07.2008

Kommafehler: ..., dass das System in der Lage ist(,) Nutzen aus diesem enorm schnellen Netzwerk zu ziehen.

uncle_sam · 29.07.2008

BAAAAAM

na endlich...
Jetzt soll noch mal einer sagen Opterons seien langsam.

Also in der letzten zeit häufen sich die guten Nachrichten.
Grakas gehen weg wie warme semmeln, tlb ist vergessen, 45nm samples laufen und wurden zum testen versand, 45nm samples lassen sich gut ocen.

also kein vergleich zum anfang des jahres.

Desti · 29.07.2008

AMD braucht 16 Cores mit 2,3 GHz für 43854 Punkte.
Sun reichen 8 Cores mit 1,4 GHz für 41847 Punkte.

x86_64 ist ja sooooooo toll.

Nero24 · 29.07.2008

Desti schrieb:
x86_64 ist ja sooooooo toll.

Und diese Aussage vom Mister Planet64Bit.de höchstpersönlich?!

Interessant!

Desti schrieb:
AMD braucht 16 Cores mit 2,3 GHz für 43854 Punkte.
Sun reichen 8 Cores mit 1,4 GHz für 41847 Punkte.

Dabei darf allerdings nicht übersehen werden, dass der Sun UltraSPARC T2 8 Threads je Core verarbeiten kann (Opteron: 1 Thread je Core), das Sun-System also genau genommen 64 (virtuelle/logische) Kerne besitzt. Natürlich skaliert die Leistung bei logischen CPU-Kernen nicht in gleicher Weise wie bei echten CPU-Kernen, aber gerade bei mehrfach superskalaren Prozessoren wie dem T2 bringt SMT dann eben doch deutlich größere Vorteile, als seinerzeit auf dem Pentium 4, der lediglich 3-fach superskalar war (T2: ~~4-fach~~) und einige Einschränkungen bzgl. SMT hatte (z.B. FPU), die der T2 nicht hat.

perpetuum.mobile · 29.07.2008

Gratulation! *clap*

Aber wieso tut mir der aktuelle Aktienkurs von 2,66 € immer noch weh... :-[

Shai Hulud · 29.07.2008

Shootist schrieb:
Gratulation!

Aber wieso tut mir der aktuelle Aktienkurs von 2,66 € immer noch weh...

Dito... Wenn ich überlege, dass ich die für 9,30€ gekauft habe... *traurig*

Onkel_Dithmeyer · 29.07.2008

Shai Hulud schrieb:
Dito... Wenn ich überlege, dass ich die für 9,30€ gekauft habe...

Hast du etwa direkt vor der übername von ATI gekauft? 8)

Nero24 · 29.07.2008

Onkel_Dithmeyer schrieb:
Hast du etwa direkt vor der übername von ATI gekauft? 8)

Mein Tipp ist, dass er (genau wie ich

) Mitte letzten Jahres gekauft hat, weil er an den Erfolg des K10 glaubte... *noahnung*

KGBerlin · 29.07.2008

Nero24 schrieb:
Und diese Aussage vom Mister Planet64Bit.de höchstpersönlich?! Interessant!

...

Er sagt ja nichts gegen AMD sondern gegen X86_64.
Nächstemal besser aber mit Intel vergleichen sonst wirds Weihnachtsgeld gestrichen

Nero24 · 29.07.2008

KGBerlin schrieb:
Er sagt ja nichts gegen AMD sondern gegen X86_64.

Ja - eben!

Wie war der Name der Webseite gleich nochmal? *buck*

Opteron · 29.07.2008

Desti schrieb:
AMD braucht 16 Cores mit 2,3 GHz für 43854 Punkte.
Sun reichen 8 Cores mit 1,4 GHz für 41847 Punkte.

x86_64 ist ja sooooooo toll.

Na das Ganze ist wohl eher ein RAM/IO Bandbreitentest als ein CPU Test. Warte mal auf nen einzelnen x86-64 Nehalem, der wird mit 8 Threads, Triple DDR3 und ca. 3 GHz sicher auch in der AMD 2P Region mitspielen.

@Nero:
Seit wann ist der T2 4fach superskalar ? Da verwechselst Du was, es werden 4 Instruktionen pro Takt gelesen, aber das wars dann schon mit "4fach". Danach können max. 2 Befehle pro Takt verarbeitet werden, d.h. 2fach superskalar:

OpenSPARC T2 is a single chip multi-threaded (CMT) processor. OpenSPARC T2
contains eight SPARC physical processor cores. Each SPARC physical processor core has full hardware support for eight strands, two integer execution pipelines, one floating-point execution pipeline, and one memory pipeline. The floating-point and memory pipelines are shared by all eight strands. The eight strands are hard-partitioned into two groups of four, and the four strands within a group share a single integer pipeline. While all eight strands run simultaneously, at any given time at most two strands will be active in the physical core, and those two strands will be issuing either a pair of integer pipeline operations, an integer operation and a floating-point operation, an integer operation and a memory operation, or a floating- point operation and a memory operation. Strands are switched on a cycle-by-cycle basis between the available strands within the hard-partitioned group of four using a least recently issued priority scheme. When a strand encounters a long-latency event, such as a cache miss, it is marked unavailable and instructions will not be issued from that strand until the long-latency event is resolved. Execution of the remaining available strands will continue while the long-latency event of the first strand is resolved.

Die Ausnützung der RAM Wartezeiten ist der große Vorteil von Thread Level Parallelism (TLP) gegenüber den hochgezüchteten ILP (Instruktion Level Parallelism, superskalar) CPUs. Beides hat zusammen erstmal nichts zu tun.

http://opensparc-t2.sunsource.net/specs/OpenSPARCT2_Core_Micro_Arch.pdf

Natürlich wärs toll wenn man nicht nur viele einfache 2fach sskalare Cores hätte, sondern viele mehrfach sskalare bzw. Cores mit OOO, aber da wird jeder einzelene Kern dann halt zu groß, zumindest bei den aktuellen Fertigungsverfahren.

ciao

Alex

BarBart · 29.07.2008

Der Aktienkurs. Ein trauriges Thema.

Ich habe auch mal gedacht, dass der K10 (direkt) ein Erfolg werden würde. Ich rede hier von einem Erfolg in wirtschaftlicher Sicht. Alles andere ist hier im Moment eh egal.

Nun denn. Hoffen wir, dass wenigstens die Prozessorsparte wieder auf die Beine kommt bzw. nach Einführung der Nehalem-Architektur überhaupt noch Beine hat.

MfG der BarBart

tomturbo · 29.07.2008

Das sind ja gute Nachrichten!

Ich bin froh hiermit die Bestätigung zu haben meinen Kunden stets die richtigen Server empfohlen zu haben

lg
__tom

martin91 · 29.07.2008

Im Grafikkartenbereich steht AMD momentan ja sehr gut da. Wenn sie im Serverbereich auch Erfolg haben und da AMD in einigen Monaten wahrscheinlich auch bei MM/Saturn ect. kaufbar sein wird würde ich mal behaupten, dass der Karren doch nicht vor die Wand fährt!

Hab zwar keine Ahnung von Aktien und auch kein Geld. Wenn ich aber unbenötigtes Geld hätte würde ich es in AMD Aktien stecken.

Nero24 · 29.07.2008

Opteron schrieb:
Seit wann ist der T2 4fach superskalar ? Da verwechselst Du was, es werden 4 Instruktionen pro Takt gelesen, aber das wars dann schon mit "4fach". Danach können max. 2 Befehle pro Takt verarbeitet werden, d.h. 2fach superskalar:

Hm, stimmt :-[

Irgendwie hatte ich beim Stichwort UltraSPARC wohl den III oder den "Rock" im Hinterkopf.

Die Ausnützung der RAM Wartezeiten ist der große Vorteil von Thread Level Parallelism (TLP) gegenüber den hochgezüchteten ILP (Instruktion Level Parallelism, superskalar) CPUs. Beides hat zusammen erstmal nichts zu tun.

Die Ausnutzung der RAM-Wartezeiten ist einer der Vorteile von SMT oder TLP im allgemeinen, da hast Du recht. Aber die Effizienz von TLP hat selbstverständlich mit dem Grad der Superskalarität zu tun. Erst einmal: die Effizienz des ILP nimmt mit dem Grad der Superskalarität ab. So bringt es z.B. nichts einen 12-way superskalaren Prozessor mit einem TLP von 1 zu bauen, da aus einem einzigen Thread gar nicht so viele voneinander unabhängige Instruktionen auf die vielen Pipelines verteilt werden können. Da sind wir uns einig, oder? Irgendwo ist immer eine Instruktion vom Ergebnis einer anderen abhängig und dann steht/stehen die betroffenen Pipeline(s) still. Das ist nicht nur abhängig von RAM-Wartezeiten, sondern unter anderem von der Anzahl der Pipeline-Stufen. Speculative- und OoO-Execution kann zwar helfen zu verhindern, dass die Pipeline in dieser Zeit schlichtweg nichts tut, indem auf Verdacht weitergerechnet wird, aber beides erhöht auch den Stromverbrauch dramatisch, da auch viele Berechnungen sinnloserweise durchgeführt werden, weil sie anschließend wieder verworfen werden müssen. Von der Komplexität gar nicht zu sprechen.

Hier kommt nun TLP zum Zuge, wo die vielen Pipelines eines mehrfach superskalaren Prozessoren nicht mit verschiedenen Instruktionen aus einem Thread gefüttert werden, sondern mit Instruktionen aus unterschiedlichen, voneinander unabhängigen Threads oder Prozessen. So können die Pipelines eines mehrfach superskalaren Prozessors besser ausgelastet werden, als mit reinem ILP. Und je mehr Pipelines vorhanden sind, desto höher ist die Chance, dass irgendwo eine Pipeline "frei" ist, der ein zusätzlicher Thread zugewiesen werden kann. Die Aussage, dass der Grad der Superskalarität mit TLP nichts zu tun hätte, ist (sofern sie nicht anders gemeint war, als ich sie verstanden habe) falsch *noahnung*

Desertdelphin · 29.07.2008

Das versteh ich nicht:

Das getestete 2-Sockel System war ein HP ProLiant DL385 G5 mit AMD Quad-Core Opteron 2356, der mit 2,3 GHz taktet. Er erreichte einen Wert von 30007 Punkten. Das 4-Sockel System war ein HP ProLiant DL585 G5 mit AMD Quad-Core Opteron 8356 und ebenfalls 2,3 GHz Takt. Dieser "Enterprise-Server" erreichte 43854 Punkte.

2 Quads = 30K Punkte
4 Quads = 44K Punkte?

Skaliert aber net so dolle? Oder ist diesem bench vieles nicht multicore optimiert?

mmoses · 29.07.2008

Nero24 schrieb:
Der AMD Quad-Core Opteron mit Barcelona-Kern hatte bekanntlich keinen guten Start in seine Karriere. Zuerst die relativ niedrigen Taktfrequenzen, dann der TLB-Bug, der zu einem mehrmonatigen Lieferstopp der Prozessoren führte und letztendlich auch noch die Streichung sämtlicher Quad-Core Opteron Ergebnisse aus den Top-Listen der SPEC.

I So hat AMD bekannt gegeben, dass sowohl 2-Sockel-, wie auch 4-Sockel-Systeme mit dem AMD Quad-Core Opteron 2356 bzw. 8356 neue Bestwerte im SPECweb2005 Benchmark aufgestellt haben. Da der Opteron seit seiner Markteinführung im Jahr 2003 aufgrund seiner Konzeption (IMC, HyperTransport) und seinem gegenüber Servern mit traditionellen Server-Prozessoren (SPARC, Itanium, Alpha) geringen Anschaffungskosten insbesondere bei den Web- und Datenbank-Servern sehr beliebt war, dürfen die Benchmark-Rekorde in dieser Disziplin als wichtiges "we are back" Zeichen gewertet werden.

Das getestete 2-Sockel System war ein HP ProLiant DL385 G5 mit AMD Quad-Core Opteron 2356, der mit 2,3 GHz taktet. Er erreichte einen Wert von 30007 Punkten. Das 4-Sockel System war ein HP ProLiant DL585 G5 mit AMD Quad-Core Opteron 8356 und ebenfalls 2,3 GHz Takt. Dieser "Enterprise-Server" erreichte 43854 Punkte. Ferner vergaß AMD nicht hervorzuheben, dass es sich um CPUs mit lediglich 75 W

Yooo , die 45nm-Versionen werden nochmal einen kleinen Scheit nachlegen, aber so langsam glimmt da wieder was....

..
Zumal Intel ja inzwischen auch gerne mal die magische 1000 Euro-marke passiert.....
Die Gretchenfrage ist , wie schlagen sich AMDs 45er in realem Silizium ??
Die SHP , die von asiatischen FUDpages über irgendwelche angeblichen Tests mit Vorseriernmodellen verbreitet werden, sind weniger aussagekräftig als der Bodensatz in meinem enkoffeiniertem Pharisäer

...
Aber gerade im Serverbereich, wo eher mal latent mittelfristige Überlegungen anstehen, könnte AMD ein paar Punkte gutmachen, weil mehrere Jahre Erfahrung ohne Frontsidebus , schnell mehr wiegen als ein paar gebenchte Prozente

Mmoe

Kommando · 29.07.2008

Desertdelphin schrieb:
Das versteh ich nicht:

2 Quads = 30K Punkte
4 Quads = 44K Punkte?

Skaliert aber net so dolle? Oder ist diesem bench vieles nicht multicore optimiert?

Also wenn ich mir anschaue was manche Quads im Heimanwenderbereich (nicht) bringen, dann sind fast 50% doch ein guter Wert, oder?

SPINA · 29.07.2008

Desertdelphin schrieb:
Skaliert aber net so dolle? Oder ist diesem bench vieles nicht multicore optimiert?

Bei Intel skalieren die Xeon DP aber noch schlechter im SPEC web2005:

Dell PowerEdge 2950 (2x Intel Xeon DP 5160, 65nm, Woodcrest, Dual-Core, 3000 MHz): 14495
Dell PowerEdge 2950 (2x Intel Xeon DP X5355, 65nm, Clovertown, Quad-Core, 2667 MHz): 16830

HP ProLiant BL480c (2x Intel Xeon DP 5160, 65nm, Woodcrest, Dual-Core, 3000 MHz): 14815
HP ProLiant BL480c (2x Intel Xeon DP X5355, 65nm, Clovertown, Quad-Core, 2667 MHz): 19931

Wird Zeit, dass endlich die Server Ableger des Nehalem kommen. AMD hat es sich in meinen Augen mit schlechter Dokumentation und veralteten Chipsätzen im Server Markt verscherzt.

Nero24 · 29.07.2008

SPINA schrieb:
AMD hat es sich in meinen Augen mit schlechter Dokumentation und veralteten Chipsätzen im Server Markt verscherzt.

Hm - ich weiß nicht, ob man das so stehen lassen kann *noahnung*

Was erwarte ich denn von einem Chipsatz? Ok, im Desktop-Bereich sicherlich eine hohe Integrationsdichte, möglichst alles Onboard bzw. im Chipsatz integriert, viele verschiedene Schnittstellen (PCIe, PCI, SATA2, Gigabit-LAN, FireWire, USB 2.0) und im Enthusiasten-Bereich evtl. noch, dass sich der Chipsatz weit übertakten lässt. Wobei gerade die Integrationsdichte in letzter Zeit wieder zurück geht. War 2003 z.B. noch die NIC-MAC des nForce2 im Chipsatz integriert, ebenso wie der Dolby-Digital Soundprozessor, so geht der Trend in letzter Zeit wieder in Richtung PCIe-LAN-Chip (Realtek), HD-Audio-PHY ohne Sound-Prozessor (Realtek) und externem 1394-Controller (TI, VIA oder was auch immer).

Im Server-Bereich jedoch spielt Integrationsdichte keine Rolle imho, erst recht nicht Übertaktbarkeit. Ich brauche keinen Onboard-SCSI-Controller, da ich sowieso einen SCSI-Controller meiner Wahl nutzen möchte. Das selbe gilt für SATA- oder SAS-Controller. Den Onboard-LAN nutze ich u.U. wenn er für meine Bedürfnisse taugt, wobei es mir dann egal ist, ob er im Chipsatz integriert ist oder extern angebunden. Die relevanten Sachen, also Memory-Controller mit möglichst viel RAM-Support, ECC und Chipkill, liefert ja bei AMD sowieso der Prozessor selbst.

Oder worauf beziehst Du Dich denn mit der Aussage "veraltete Chipsätze", falls ich Dich falsch verstanden haben sollte?

Opteron · 29.07.2008

Nero24 schrieb:
Die Aussage, dass der Grad der Superskalarität mit TLP nichts zu tun hätte, ist (sofern sie nicht anders gemeint war, als ich sie verstanden habe) falsch

Jo dass passt dann schon, wenn Dus so meinst. Ich wollte nur betonen, dass es ersteinmal wichtig ist die Speicherlatenz zu "verstecken" und die Superskalarität erstmal unwichtig ist.
Sieht man ja schön bei Sun, nur 2fach superskalar, aber 8fach SMT ... das würden die nicht machen, wenn es sich nicht rentieren würde. Die Frage ist dann auch, was z.B. ein einzelner 4fach sskalarer Kern im Vergleich zu zwei 2fach sskalaren Kernen brächte ... klar, bei nem single thread Task ist ersterer Wohl schneller, aber wenn man eh nur "Throughput" haben will ... *noahnung*

Einzigstes Beispiel das mir für Deinen Fall (Ausnutzung einer hohen Superskalarität) einfällt ist (wieder Mal) der SMT Prozessor schlechthin: Alpha EV8.

Der Chip war 8fach superskalar geplant, mit eingebautem 4fach SMT. Eigentlich optimal, viel Wumms für nen einzelnen Thread, aber auch viel Leistungsplus bei mehreren Threads, nicht nur "mickrige" 30-50%. Die aktuellen SMT Lösungen (Sei es Sun, P4, Nehalem oder auch Atom) sind unter der Sicht ja nur alte CPUs mit aufgepropftem SMT Teil, eben um die Speicherwartezeiten des jeweils andren threads auszunutzen.

Ich hoffe Bulldozer geht irgendwie in die Richtung, Pi*Daumen dauert es ja ~10 Jahre bis Alpha Entwicklungen zum Mainstream x86 Markt durchsickern, also wäre es um 2010 herum (endlich) Zeit

Bescheiden wie ich bin, wäre ich ja schon mit einem 6fach superskalar, 2fach SMT Kern und einer verbesserten FPU/SSE-Einheiten zufrieden ^^

ciao

Alex

SPINA · 29.07.2008

Nero24 schrieb:
Oder worauf beziehst Du Dich denn mit der Aussage "veraltete Chipsätze", falls ich Dich falsch verstanden haben sollte?

Das Bezog ich darauf, dass der nVidia nForce 3600 und Broadcom HT2000 noch recht PCI-X lastig sind und noch kein HT 3.0 beherrschen. Und AMD müsste die 8000er Chipsatz Serie auch langsam einmal ablösen.

AMD Quad-Core Opteron mit Bestwerten beim SPECweb2005 Benchmark

Administrator

Grand Admiral Special

Lt. Commander

Vice Admiral Special

Grand Admiral Special

Moderator☆☆☆☆☆☆

Administrator

Grand Admiral Special

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Administrator

Grand Admiral Special

Administrator

Redaktion☆☆☆☆☆☆

Fleet Captain Special

Technische Administration, Dinosaurier

Vice Admiral Special

Administrator

Grand Admiral Special

Admiral Special

Grand Admiral Special

Grand Admiral Special

Administrator

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Ähnliche Themen

Moderator
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆