Die Opteron Zukunft, kann AMD überleben?

Heißt das, das die FP Unit des P4 eigentlich 2 sind? Weil auf dieser Grafik finde ich nur eine FP Unit (+Move/Store):
blockdiag.gif

Edit: Hier noch die TecChannel SSE2 Benches: (Sind mit Instructions hier eigentlich die tatsächlich ausgeführten Befehle gemeint oder die bearbeiteten Daten?Eigentlich müssten es dieAnzahl der Daten sein, denn es wäre unwahrscheinlich, dass doppeklt so viele SSE1 Befehle angewendet werden können (siehe 2. Grafik))
0012587_PIC.gif
0012589_PIC.gif
 
Zuletzt bearbeitet:
Original geschrieben von mtb][sledgehammer
Heißt das, das die FP Unit des P4 eigentlich 2 sind? Weil auf dieser Grafik finde ich nur eine FP Unit (+Move/Store):

im x87 Modus sinds sicherlich keine 2, da der P4 nur alle 2 Takte einen MUL Befehl ansetzen kann.
Bei SSE2 dagegen ist er in der Lage jeden Takt einen MUL Befehl anzusetzen. Ist irgend ne tiefere Sache.

Trotzdem gibt Intel 2 FLOPs pro Takt für SSE2 an. Eventuell zählt hier Move/Store und was noch dazukommt um die 64Bit Daten zu Packen.
Sicher ist, dass auch der K8 nur 2 FLOPs pro Takt erreicht bei 64Bit Daten.
Ich würde sagen wir packen das aber auch ganz flasch an ;)


Wir haben einen 128Bit vektor mit 2x64 Einträgen.
x(64Bit) + y (64Bit)

X und Y können nun beide bearbeitet werden (SIMD).

....x + y

..ADD ADD

....c + z

was 2 FP Ops sind.
Dabei ist es dann egal ob ich 2 oder gar 6 unabhängige FP EInheiten habe, solange ich MUL und ADD zusammen ansetzen kann. Und das können sowohl der P4 als auch der K8.
 
Zuletzt bearbeitet:
Tschuldigung, dass ich die zweite Grafik da erst später hineditiert habe ;)
Hast du da ein geeignetes Dokument für den Pentium 4? Wie schon geschrieben würde ich mich da gerne mal genauer einarbeiten, weiß aber nicht genau wo ich anfangen soll :(

Was für mich neu klingt, ist, dass der Opteron nur 2 SIMD Befehle pro Takt bearbeiten soll. SChließlich wirbt AMD immer wieder, dass der K7 und der K8 ganze 3 FPUs hat (die MISC Einheit scheint mir sogar ein wenig universeller als die move/store Unit des P4 zu sein).
 
Original geschrieben von mtb][sledgehammer
Tschuldigung, dass ich die zweite Grafik da erst später hineditiert habe ;)
Hast du da ein geeignetes Dokument für den Pentium 4? Wie schon geschrieben würde ich mich da gerne mal genauer einarbeiten, weiß aber nicht genau wo ich anfangen soll :(

Was für mich neu klingt, ist, dass der Opteron nur 2 SIMD Befehle pro Takt bearbeiten soll. SChließlich wirbt AMD immer wieder, dass der K7 und der K8 ganze 3 FPUs hat (die MISC Einheit scheint mir sogar ein wenig universeller als die move/store Unit des P4 zu sein).

Der K7/K8 mag 3FPUs haben.
Aber ein 128Bit packed SSE2 Vektor hat eben nur 2x64Bit Datenpakete.
Man kann also max. 2 FP Operationen daran ausführen, egal wieviele FPUs man nun hat.

die Load/Store Einheit des K7/8 mag universeller sein als beim P4, welcher es etwas Anders angeht, aber zumindest der K7 hatte angeblich einige Probleme mit Out of Order Execution und den Load/Stores.

So wie es aussieht, ist die eine FPU Einheit des P4 intern in einen Adder und Multiplier unterteilt (ist ja logisch), es gibt aber nur einen Port für die ganze Sache.
Der zweite SSE2 Port ist für die Register Move und Store Einheit zuständig.
Leider kann ich eigentlich nicht mehr sagen, weil ich keine Ahnung habe.


ich wüsste auch nicht wo man sowas wirklich nachlesen könnte :(
 
Heute findet ja eine Informationsexplosion statt!

Ich muss erst mal den Overkill verdauen.

Da muss ich mir noch'n altes Papier zu gemüte führen ""Pentium 4: In Depth" Übersetzt ins Deutsche von D'Espice mit freundlicher Genehmigung des Authors"

;D
 
Das Imperium schlägt zurück;
Kleine und große Tiere gegen den Opteron

Ich denke der bearbeitete Text ist selbsterklärend!
Nocona, Jayhawk to use 800MHz system bus
Server Road Maps Canterwood-ES chipset on the way
By Mike Magee: Dienstag 03 Juni 2003, 15:27
INTEL SERVER processors available in 2004 and codenamed Nocona and Jayhawk will only use 800MHz front side buses when they're launched.
That's the message Intel is giving its customers about the chips, which will eventually displace the current Xeon family of chips.
Nocona, the equivalent to Prescott for desktop CPUs, is actually slated to ship at the end of this year, using initially the E7501 chipset and at a speed of 3.46GHz.
…, Nocona will be supported by the Lindenhurst and Lindenhurst VS chipsets, which will also support the Jayjawk processor …
The second half of next year will also see the introduction of the Madison 9M followup, which will launch with a refresh of the smaller cache Deerfield Itanium as well.
Da sind keine Geschwindigkeitswunder zu erwarten
Other chip introductions for the workstation market next year include the successor to the Prescott, simply called The Next Generation Processor by Intel so far, and using the Copper River chipset.
Noconas, as well as having 800MHz system buses and DDR2-400 memory, will also support PCI Express, the big PC revolution of 2004, and include direct connect LAN and storage support.
Die übliche Medizin Cache, Cache und nochmals…
The other processor Intel has recently started talking about is codenamed Potomac – this is a successor to the large cache Intel Xeon MP chips , will use the Twin Castle chipset…
There's still not a great deal of detail about the Jayhawk processor, although it will use the Tumwater chipset, which Intel talked about at a Developer Forum this year.

Die wahre Antwort zum Opteron?
Intel's low voltage Itanium 2 is being aimed at technical computing and clustering, with the firm positioning the Itanium 2 platform as suitable for the entire technical computing marketplace.

Preisfrage:
The "Madison" Itnaium 2, with 6MB of cache and running at 1.5GHz will intro at the end of month at $4,300. The 4MB 1.4GHz Madison will cost $2,250, and the 1.3GHz/3MB "Deerfield" around $1,400. Intel will also introduce a 1.4GHz 1.5MB dual processing chip at $1,100.
... µ
http://www.theinquirer.net/?article=9823

Die große Frage ist, haben die neu gebackenen CPU’s den Geschmack der Käufer gefunden?
Reicht ein Low- Power Itani(c)um aus, um den Opteron auszubremesen?
Reicht der Erfahrungsschatz der klassischen Xeons aus um nicht ein Einbruch zu erleben?

Und jetzt kommen schon wieder Fragen über Fragen, obwohl der Streit mit den SSE2- Einheiten noch gar nicht aufgelöst wurde!
 
Original geschrieben von Bokill
Das Imperium schlägt zurück;
Kleine und große Tiere gegen den Opteron

Ich denke der bearbeitete Text ist selbsterklärend!
Nocona, Jayhawk to use 800MHz system bus


Die große Frage ist, haben die neu gebackenen CPU’s den Geschmack der Käufer gefunden?
Reicht ein Low- Power Itani(c)um aus, um den Opteron auszubremesen?
Reicht der Erfahrungsschatz der klassischen Xeons aus um nicht ein Einbruch zu erleben?

Und jetzt kommen schon wieder Fragen über Fragen, obwohl der Streit mit den SSE2- Einheiten noch gar nicht aufgelöst wurde!


ich denke, die neuen Xeons werdem dem Opteron schon gehörig einheizen.
Die Prescott CPUs und dessen Abkömmlinge sehen sehr vielversprechend aus.
 
ich denke, die neuen Xeons werdem dem Opteron schon gehörig einheizen.
Die Prescott CPUs und dessen Abkömmlinge sehen sehr vielversprechend aus
Von der Geschwidigkeit sind, glaube ich, aber keine Überraschungen zu erwarten. Ein vergrösserter L1 Cache bring einen bis zwei Speedgrades.
Und sobald Daten nicht mehr im L2 Cache vorhanden sind sinkt die Leistung.
Da die Pipeline einen Hauch länger wird reagiert der P4 noch allergischer auf unerwartete Programmsprünge.
Das wird eine hübsche Fortstzung geben in dem Thread Benchmarkmärchen: http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=99401

Beim Opteron ist allerding noch viel Musik drin, erst recht wenn SSE2 gut angesprochen wir.
 
Original geschrieben von Bokill
Von der Geschwidigkeit sind, glaube ich, aber keine Überraschungen zu erwarten. Ein vergrösserter L1 Cache bring einen bis zwei Speedgrades.
Und sobald Daten nicht mehr im L2 Cache vorhanden sind sinkt die Leistung.
Da die Pipeline einen Hauch länger wird reagiert der P4 noch allergischer auf unerwartete Programmsprünge.
Das wird eine hübsche Fortstzung geben in dem Thread Benchmarkmärchen: http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=99401

Beim Opteron ist allerding noch viel Musik drin, erst recht wenn SSE2 gut angesprochen wir.

es ist ja nicht nur ein doppelter L1 D Cache.
der Trace Cache wurde verbessert, am ganzen Core wurde rumgebastelt, angeblich hat der Prescott eigene SIMD EInheiten die nichtmehr die FPUs benutzen müssen.
Puffer und Regsiter wurden vergrößert oder hinzugefügt und was weiss ich noch...
also ich denke da ist mehr als nur ein vergrößerter L1 Cache.
 
Beim Opteron ist allerding noch viel Musik drin, erst recht wenn SSE2 gut angesprochen wir.
------------------------------------------------------------

es ist ja nicht nur ein doppelter L1 D Cache.
der Trace Cache wurde verbessert, am ganzen Core wurde rumgebastelt, angeblich hat der Prescott eigene SIMD EInheiten die nichtmehr die FPUs benutzen müssen.
Puffer und Regsiter wurden vergrößert oder hinzugefügt und was weiss ich noch...
also ich denke da ist mehr als nur ein vergrößerter L1 Cache.

Sicher, gilt ebenso für den Opteron, aber bei FP- Operationen die in den L1 Cache des Athlons passten, hat sich die Leistung des Opterons kaum bis gar nicht gesteigert.
Und bei x86 bleiben außen die Register gleich, intern haben beide x86 Hersteller ja schon viel mehr Register hineingefrickelt.
Da gab es ja intelligente Spekulationen von Hans de Vries zu den wirklichen Funktionen des Prescott's:
"Looking at Intel's Prescott die, part II, the prove for Yamhill"
http://www.chip-architect.com/news/2003_04_20_Looking_at_Intels_Prescott_part2.html
Wie gesagt alles Spekulationen, aber Intel hat ja schon mal gezeigt wie Funktionen eingebaut werden, die erst wesentlich später (Hyperthreading) aktiviert wurden.

PS. Register sind spezielle superschnelle Speicher die direkt mit den Recheneinheiten zusammenarbeiten.
 
Um den Innereien von Netburst näher zu kommen, habe ich ein wenig auf Intels HP gewühlt und eine schöne pdf gefunden. Da habe ich nun eine detailiertere Abbildung der P4 Pipes gefunden. Den Text dazu werde ich mir morgen zu Gemüte führen:
p4pipes.jpg
 
Eine klitzekleine Randbemerkung zu den Brandheissen CPU's der Zukunft.
Vom allseits geschätzten C't Autor Andreas Stiller und seinem Lieblingsthema aus der c't 17/2002, S. 26: Prozessoren
Dannach kann es unbedingt wieder weitergehen mit SSE2 und dem Opteron P4.
Auch das noch
Das wohl schönste Erbstück der PC-Legacy-Kultur, ja, ja, mein geliebtes A20-Gate, ist weiterhin nicht totzukriegen. Natürlich ist es im Itanium 2, im Opteron und in modernen I/O-Protokollen wie HyperTransport zu finden.

Vor allem macht dieses Gate, das so ungemein nützlich den 8086-Adressraum simuliert, immer wieder mit unplanmäßigen Späßchen auf sich aufmerksam. So musste Intel im aktuellen Specification Update des Pentium 4 vom Juli 2002 unter Nummer N66 die neusten Stilblüte dieses Geschöpfes eingestehen: Bei gleichzeitiger Aktivierung des A20-Signals mit Init - was bei klassischen BIOS-Funktionen durchaus vorkommt - liest der Prozessor mitunter falsche Daten ein ...
http://www.heise.de/ct/02/17/026/default.shtml
 
Das A20 gate ist wirklich ein Mistviech! Wenns denn wenigstens was nützliches kontrollieren würde - aber die Adress.... truncation, die von 8086 damit emuliert wird (zb FFFF:0010 entspricht 0000:0000, FFFF:0011 entspricht 0000:0001 usw) ist wirklich absolut Sinnlos! Dagegen kann man mit aktiviertem A20 (Adressleitung 20-23 werden aktiviert) unter Dos endlich auf wenigstens etwas mehr als 1mb zugreifen (von FFFF:0010 bis FFFF:FFFF - ist alles über 1mb).

Und das tollste ist auch noch es anzuschalten.

Da gibts den Keyboard Controller - schlecht nur bei Systemen ohne Keyboard (sowas gibts), absolut unsauber und dazu noch lahm wie ne Ente.

Den System Controll Port A - sehr saubere Möglichkeit - 2 IO Zugriffe und das A20 ist an... nur glücklicherweise hat das nicht jeder Rechner und bei einigen wenigen Notebooks macht man damit irgendwas bei der Graka -> kein Bild mehr.

Der Int15h - hat praktisch kein Bios, aber wenns denn mal klappt auch ganz ok.



Also bei A20 sehe ich Rot 8-(
 
So, ich habe mich endlich hingesetzt und die Latenzen dund SSE2 Durchsatzraten von Hammer und Netburst Architektur in eine Tabelle gepresst. Die grün markierten Werte sind jeweils besser als die der anderen Architektur. Ich hoffe ich hab nicht allzuviel Tippfehler drin. Ansonsten waren leider beide Quellen nicht vollständig, sodass auch Lücken drin sind, aber bei 144 Befehlen bleibt noch genügend vergleichbares drin :)

SSE2 - Hammer vs Netburst

Quellen:
Software Optimization Guide for AMD Athlon™ 64 and AMD Opteron™ Processors
IA-32 Intel® Architecture Optimization Reference Manual
 
Zuletzt bearbeitet:
Der "Hammer" hat ja echt kurze Latenzen... :)

Leider sehe ich immer noch keinen Opteron zu kaufen.... :( ich möchte es real sehen.
 
@mtb][sledgehammer jetzt hast du einen eigenen Ordner bei mir neben den PDF's von AMD;)
 
Zuletzt bearbeitet:
@ Bokill: Danke für das Lob, das motiviert :)

Also ich denke, nach diesem Vergleich sollten Behauptungen ala "AMD hat SSE2 schlecht in den Hammer implementiert und deshalb ist er so schlecht in SSE2 Software" nicht mehr zulässig sein.
Was mich bei der Sache ziemlich gewundert hat ist, dass es extrem viele Befehle gibt, bei denen der Durchsatz nicht 1 ist sonsern weniger.

Hat eigentlich irgend jemand die AMD pdf, in der AMD die eigene SSE2 Performance anpreist? Ich weiß nur noch, dass von 1,9 IPC die Rede ist, wollte das abergenauer durchlesen.

EDIT: Auf die Frage wieviele SIMD Befehle der P4 pro Takt bearbeiten kann habe ich eine eindeutige Antwort gefunden, siehe folgender Ausschnitt aus dem Intel Dokument:
p4ports.gif

Demnach kann der P4 also einen MOVE Befehl und nur einen EXECUTE Befehl pro Takt ausführen (also kein ADD und MUL parallel). Ich werd jetzt nochmal nach was konkretem beim Hammer suchen.
 
Zuletzt bearbeitet:
aus -> http://www.intel.com/technology/itj/q12001/articles/art_2.htm

Many FP/multi-media applications have a fairly balanced set of multiplies and adds. The machine can usually keep busy interleaving a multiply and an add every two clock cycles at much less cost than fully pipelining all the FP/SSE execution hardware. In the Pentium 4 processor, the FP adder can execute one Extended-Precision (EP) addition, one Double-Precision (DP) addition, or two Single-Precision (SP) additions every clock cycle. This allows it to complete a 128-bit SSE/SSE2 packed SP or DP add uop every two clock cycles. The FP multiplier can execute either one EP multiply every two clocks, or it can execute one DP multiply or two SP multiplies every clock. This allows it to complete a 128-bit IEEE SSE/SSE2 packed SP or DP multiply uop every two clock cycles giving a peak 6 GFLOPS for single precision or 3 GFLOPS for double precision floating-point at 1.5 GHz.


demnach kann der P4 optimal (peak) 2 FP Ops / Cycle ausführen bei DP SSE2 und 4 FP Ops/ Cycle bei SP SSE. Genau wie der K8.

PS: file kommt per mail.
 
Verdacht

Mich beschleicht so'n Verdacht, auch wenn ich ca. nur 3% von den Konvoluten verstehe.

AMD's Umsetzung ist zahlenmäßig was die Taktzyclen angeht, eindeutig schneller. Zum teil wird der Zyclusvorsprung wieder Aufgefressen von Intel's absoluter Taktfrequenz.

Was nützt eine Latenz von 2 Takten bei einer Zeit von 10 Einheiten , wenn die Konkurrenz 4 Takte braucht aber nur 5 Zeiteinheiten dafür konsumiert?

- Nichts, beides ist gleich schnell!


Bei der Durchsicht deiner Liste @mtb][sledgehammer scheint mir dennoch ein Vorteil auf der Hammer- Ebene zu sein.

Einige Befehle werden aber extrem langsam abgearbeitet, möglicherweise sit dies der Hemmschuh, aber so richtig mag ich daran auch nicht glauben.

Ich denke es liegt das gleiche Desaster vor, wie zur Einführung der SSE- Instruktionen bei den XP's und der mangelnden Anpassung der Software.

Nachfrage:
1. Throughput = Durchsatz?
2. Zahlenwert 1 entspricht dem Verhältnis des Durchsatzes von Infodaten rein/verarbeite Daten raus?

mit anderen Worten die Interne Maschine ,die den CISC x86 Code umwandelt in µOps (oder wie die sonst sich nennen, is ja Marketing/Patentkram )schaufelt soviel Daten hinein, wie die internen Recheneinheiten auch genauso schnell wieder herausgeben können.

Bei einem Zahlenwert 1/2 kommt die eine Einheit nicht mehr nach, so dass das Verhältnis sich verschlechtert?

Beim P4 verhungern doch die Recheneinheiten, sehe ich das richtig, oder verwechsle ich dies genau falsch rum?
 
Ich wollte eigentlich schon viel früher Fragen aber der Verw... *shi* Webwasher hat seine Anstalten gemacht.
*grimblfix* :[ :] 8-(
 
Nachdem ich mich da jetzt stark eingearbeitet habe muss ich dir (BlackBird) ziemlich zustimmen. In einem Punkt haben wir allerdings an uns vorbei geredet. Wenn ich von einer Instruktion spreche, dann meine ich z.B. ADDPD xmm, xmm. Beide Architekturen haben einen Durchsatz von genau 1/2. (Liege ich richtig in der Annahme, dass PD für Douple Precision steht?) Da damit aber 2 Datenpaare bearbeitet werden kamst du auf 1 IPC. Da lag wohl unsere Differenz.
Ich war bislang der Annheme, dass der Hammer mit jeder Pipe einen Durchsatz von 1 Instruktion pro Pipe erreichen würde, das trifft wohl leider nicht immer zu.
Ich würde aber nicht sagen, dass SSE2 deshalb schlecht implementiert ist. Es ist mindestens so schnell wie beim P4 bei gleicher Taktfrquenz. Bei den meisten Operationen sogar wesentlich schneller. Hauptsächlich sind es die FP DP Befehle die nicht schneller als beim Pentium 4 sind.

@ Bokill

Throuput ist der Durchsatz, wobei 1/2 heißt, dass alle zwei Takte eine Instruktion bearbeitet werden kann. Ich habe festgestellt, dass der große Vorteil des Athlon bei den Integer und 64 Bit FP(geasmtbreite) Befehlen liegt, leider weiß ich im Moment nicht, wo das konkret Anwendung findet. Bei 128 Bit FP hat der Hammer theoretisch den selben Durchsatz wie Netburst, dadurch kommen die schlechten Resultate beispielsweise bei der Matrix Multiplication zustande.

Ich denke hier sollte AMD schauen, dass sie ihren IPC Vorteil wieder erkämfen, also eine zweite ADD und MUL Einheit hinzufügen.

Meine anfängliche These, dass es an P4 optimierter Software liegt ziehe ich also mal wieder zurück.
 
Zuletzt bearbeitet:
Zurück
Oben Unten