Bulldozer - AMD Fam 15h - allgemeiner Infothread

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.645
Renomée
2.254
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
Hiho,

nachdem hier jetzt schon wieder Informationen über den nächsten AMD "Hauptkern" durchsickern (ich nenn ihn mal K12), obwohl noch nicht mal der K10 erhältlich ist, mach ich mal nen neuen Thread auf. Ich werd da mal später noch die Infos der letzten Konferenz nachtragen. Bis jetzt poste ich aber nur die aktuellen SSE5 Infos vom Register:
According to AMD, the new extensions will bring a couple of major breakthroughs.

For one, AMD will follow the RISC crowd with support for 3-Operand Instructions - up from two. So, unlike in the past where you would do A plus B and then have to store the result of the operation in A or B, developers can now store the result in a third location. This should reduce the total number of instructions needed to perform certain tasks and require less effort on the part of developers to keep track of registers.

The support for 3-Operand Instructions allows AMD to roll out a "fused multiply accumulate" instruction as well. This melds multiplication and addition to permit "iterative calculations with one instruction."
http://www.theregister.co.uk/2007/08/30/amd_sse5/

Also wird das ein noch RISC-artigeres Design. Spekulieren darf man jetzt über die restlichen "breakthroughs", sollen ja mehrere sein und es wurde nur einer genannt ;-)

Infos bei AMD:
http://developer.amd.com/sse5.jsp

und das >200 Seiten PDF für die neuen Befehle:
http://developer.amd.com/assets/sse5_43479_BDAPMU_3-00_8-27-07.pdf

Wäre nett, wenn das jemand mit Ahnung überfliegen könnte und Berichtenswertes hier postet :)

Abgesehen davon darf munter weiterspekuliert werden, reversed Hyperthreading wird wohl auch wieder ein Thema sein ;)

Edit, Einfügen weiterer Links:
heise Meldung:
http://www.heise.de/newsticker/meldung/95180 (Unterscheidet sich von allen andren Meldungen duch ein paar anschauliche (Code)Beispiele.)


ciao

Alex

P.S: Bin gespannt, wie Intel nun seine nächste SSE Version nennt .. vielleicht SSE5i ^^
 
Zuletzt bearbeitet:
Das scheint die x86-Variante von DECs Tarantula zu sein.

DEC hatte in dem EV-8 seine SIMD-Einheit auch so auslegen wollen. Am Anfang der K9-Diskussion wurde das ja auch als eine Option für den Nachfolge-Prozessor des K8 angesehen.

Nun ja, halb richtig, wie es scheint, da zuerst 128 Bit breite Instruktionen (oder 2x 64 Bit, oder 4x 32 Bit) in einem Rutsch mit SSE4a bearbeitet werden können.

Vor einem 3-Operanden-Prozessor wollte man wohl im Vorfeld Engpässe beseitigen.

MFG Bobo(2007)
 
Zuletzt bearbeitet:
Was mir zu dem Thema spontan einfällt: ursprünglich hatte (laut einer damaligen C't) AMD geplant schon im K8 eine 3 Operanden Sprache einzuführen; damals unter dem Namen Technical Floating POint Unit (TFP). Das wurde damals zugunsten von SSE2 dann doch umgeschmissen. Schön, dass AMD das Thema wieder aufgreift. Das dürfte vielen Anwendungen, insbesondere Videobearbeitung zugute kommen.

http://www.heise.de/newsticker/meldung/11163
 
Zuletzt bearbeitet:
Das scheint die x86-Variante von DECs Tarantula zu sein.
Hmm ja eigentlich sollte man jetzt vom EV8 Design "klauen" ^^ Aber bevor wir weiterspekulieren, mit Tarantula meinst Du aber nicht die komplette Vector FPU wie hier beschrieben:
http://www.theinquirer.net/?article=24284
http://systems.cs.colorado.edu/ISCA2002/FinalPapers/X/EspasaR_Tarantula_final.pdf

Sondern nur die "normale" EV8 (Aranha, oder wie immer die Spinne hiess) Version, oder ? :)

Edit: @mtb][sledgehammer: Aja stimmt .. die TFP ... da war doch was:
Bei der FPU allerdings wurde AMD etwas mutiger. Zwar unterstützt sie logischerweise die klassischen FPU/MMX/3Dnow!-Modi, darüber hinaus hat AMD aber den Stack-Engpass mit einem neuen Modus gesprengt. Die FPU arbeitet dann als volle Drei-Adressmaschine mit einem Registersatz von ‘deutlich mehr’ als 8 Registern (vermutlich wohl 32).
Von 1999 ^^ http://www.heise.de/ct/99/22/016/
Sieht wohl so aus, dass AMD da ein paar alte Sachen ausgegraben hat ;-)

ciao

Alex
 
Zuletzt bearbeitet:
Hmm ja eigentlich sollte man jetzt vom EV8 Design "klauen" ^^ Aber bevor wir weiterspekulieren, mit Tarantula meinst Du aber nicht die komplette Vector FPU wie hier beschrieben:
Ich verstehe darunter die geplante Erweiterung des EV-8 mit einer Vektoreinheit, eben "Tarantula". Das hatte HenryWince damals ja auch so beschrieben.

Schau mir mal gleich deine PDFs an 8)

MFG Bobo(2007)
 
Ich verstehe darunter die geplante Erweiterung des EV-8 mit einer Vektoreinheit, eben "Tarantula". Das hatte HenryWince damals ja auch so beschrieben.
Hmm ok, den Kommentar von Henry hab ich jetzt nicht mehr im Kopf, hab das PDF nur kurz überflogen, aber das schaut ja ziemlich massiv aus, das braucht man nur im HPC Bereich. Nachdem aber Bulldozer das erstemal im Fusion Chip für Notebooks auftauchen soll kann ich mir nicht vorstellen, dass ein tarantula Teil ins Notebook Segment mitgeschleppt wird.

Ausser ... ausser ... man findet ne clevere Art die Grafikausgabe damit zu rechnen ... ist ja wohl nicht soo viel Unterschied ;-)

Was auch noch dafür spräche ... 2009 ist 45nm oder 32nm aktuell ..da interssiert so ne Vectoreinheit wohl keinen mehr, selbst wenn die Register 1kb gross sind.

Aber Zwischenfrage soweit: TFP == Tarantula ? (klärt sich vielleicht, wenn ich Henrys Kommentar finde, heute Abend dann, oder Bobo ist schneller ;-))

ciao

Alex
 
Und laut den Folien vom Technical Analyst Day 2007 soll der Bulldozer ja bereits 8-16 cores im Sandtiger für server bringen.
 
Der erste EV-8 war noch ohne die Vektorerweiterung "Tarantula" entwickelt worden. Allerdings sollte der EV-8 (Alpha 21464) später mit einem sockelkompatiblen EV-8+ Prozessor ersetzt werden.

... Tarantula adds to the Alpha ISA new architectural state
in the form of 32 vector registers (v0..v31) and their associated
control registers: vector length (vl), vector stride
(vs), and vector mask (vm). Each vector register holds 128
64-bit values. The vl register is an 8-bit register that controls
the length of each vector operation. The vs register
is a 64-bit register that controls the stride between memory
locations accessed by vector memory operations. The vm
register is a 128-bit register used in instructions that operate
under mask. ...

To avoid long latency data transfers
back and forth between the Vbox ALUs and the EV8 scalar
register file (a 20-cycle round-trip delay), vector comparisons
store the resulting boolean vector in a full vector register.
This allows coding complex if-statements without
vector-scalar communication.
Es ist demnach nicht beides identisch, aber löst auf ähnliche Weise Fesseln der Gleitkommaeinheiten.

AMD hatte aber schon vorher eine Streaming-Einheit. SSE2 ist die technische Basis für x86-64-Vektoreinheiten. In so fern gehört diese elementar zu der AMD64 ISA.

Eine kommende AMD-CPU-Generation mit Grafikkern (Stichwort "Fusion [intern], "Torrenza" [extern]) ist (noch) nicht explizit in der AMD64 ISA. Wird es auch erst mal nicht, da AMD offensichtlich doch an einer TFP-Einheit (TFP = Technical Floating Point) gearbeitet hat.

Ehrlich gesagt bin ich sogar etwas erleichtert, dass AMD nach wie vor auch am eigentlichen Prozessorkern des K8/K10 weiter arbeitet und sich nicht ausschliesslich auf ATIs GPU-Kerne verlässt. Genau das ist die Frage, wie sich x86 mit dem Larrabee, Polaris, Fusion/Torrenza, Tesla weiterentwickelt.

MFG Bobo(2007)
 
Eine kommende AMD-CPU-Generation mit Grafikkern (Stichwort "Fusion [intern], "Torrenza" [extern]) ist (noch) nicht explizit in der AMD64 ISA. Wird es auch erst mal nicht, da AMD offensichtlich doch an einer TFP-Einheit (TFP = Technical Floating Point) gearbeitet hat.
Stimmt auch wieder .. Fusion wird ja eher ein Zusammenbasteln mit einem Bulldozer Kern und einem extra Grafikkern. Ergo kann keine Grafikeinheit im K11 sein. Hier hab ich noch ne schöne Grafik gefunden:
0,1425,sz=1&i=168218,00.jpg

Quelle: http://www.extremetech.com/article2/0,1558,2177464,00.asp

Vector Shift & Rotate .. hmmmm

ciao

Alex
 
Zuletzt bearbeitet:
SSE4A hat gar keine Schnittmenge mit SSE4?
Und wann kommt SSSSE5ABCD? Warum werden die Bezeichnungen nicht mit dem Zufallsgenerator gemacht?
 
Kann mir mal wer erklären warum es hier gerade gesondert um single threaded Anwendungen geht:
Der für das Jahr 2009 erwartete Bulldozer soll teilweise enorme Geschwindigkeitszuwächse für Single-Thread-Anwendungen bieten, die durch neue Befehle in SSE5 erreicht werden.

Kann es sein dass AMD auch Befehle Integrieren will, welche automatisch auf mehrere Prozessoren verteilt werden können??

Ich wollt nur nochmal die Andeutungen zu R-HT aufgreifen. ;D
 
Kann mir mal wer erklären warum es hier gerade gesondert um single threaded Anwendungen geht:
Die Multi-Thread-Performance zu vergrößern ist relativ einfach durch Erhöhung der Anzahl der Kerne möglich, und auch in etwa Das, was in den letzten ~2 Jahren fast ausschließlich gemacht wurde. Diese Technik bietet jedoch echte Vorteile für Single-Thread-Anwendungen, da die IPC pro Kern gesteigert wird.
 
Die Multi-Thread-Performance zu vergrößern ist relativ einfach durch Erhöhung der Anzahl der Kerne möglich, und auch in etwa Das, was in den letzten ~2 Jahren fast ausschließlich gemacht wurde. Diese Technik bietet jedoch echte Vorteile für Single-Thread-Anwendungen, da die IPC pro Kern gesteigert wird.

naja gerade bei großen kernzahlen wird es wieder schwerer die Mltithread performance zu erhöhen, das die Effekte der Skalierung immer schwerwiegender werden. (98% skalierung pro kern kann bei 8 kernen schon ne ganze menge leistungsverlust bedeuten)

ich glaube nicht, dass man einfach auf eine verbesserung des einzelnen cores hinweist, sonst könnte man das ja beim k10 auch so machen.
 
SSE4A hat gar keine Schnittmenge mit SSE4?

Nein, SSE4A und SSE4 haben bis auf dem Namen nichts gemeinsam, die Menge der gemeinsamen Befehle ist genau Null.

Das die Befehlssätze überhaupt einen so ähnlichen Namen haben ist wohl den jeweiligen Marketingabteilungen zuzuschreiben. Dazu kommt ja auch noch, dass der Penryn nicht sämtliche SSE4-Befehle mitbringt, nur die meisten, nämlich 47 von 54. Das nennt man inzwischen SSE4.1, obwohl es weniger als SSE4 ist...
 
In welchem Zeitraum soll den der Bulldozer vorgestellt werden? Ich meine gerade für AMD ist es schon etwas komisch jetzt schon etwas über die nächste Architektur bekannt zu geben. Muss der K10 eventuell nur eine kurze Zeit überbrücken?
 
In welchem Zeitraum soll den der Bulldozer vorgestellt werden? Ich meine gerade für AMD ist es schon etwas komisch jetzt schon etwas über die nächste Architektur bekannt zu geben. Muss der K10 eventuell nur eine kurze Zeit überbrücken?
Les mal den 4ten Beitrag über Dir, von Ragas 16:29, da stehts drin ;-)
Oder Du klickst auf einen der Links im ersten Beitrag, da stehts auch überall, teilweise sogar in der Überschrift ;-)

ciao

Alex
 
Hört sich zumindet so an als müsste der K10 Kern nich all zu lange arbeiten. 2009 is lang, eben bis zum 31.12.2009, also noch etwas über 2 Jahre was ich für einen halbwegs realistischen Zeitraum halte.

Das Konzept hört sich schonmal echt gut an.

R-HT wäre natürlich ein Riesen Sprung nach vorne. Man könnte die Kernanzahl erhöhen und würde 1 Thread auf 2 Kerne verteilen und würde so fast zu 100% Skalieren. Aber ich kann mir das relativ schwer vorstellen da es ja immernoch das Prob gibt, das das Ergebnis des einen Kerns für das des anderen wichtig sein könnte.

Da müsste der Prozi erstmal wieder raten oder er wartet. Aber wenn am ende 50% mehr rauskommen wäre das schon genug^^
 
naja ich denke 2009 ist da eher als richtwert zu nehmen. die verzögerungen des k10 haben ja gezeigt dass da ein halbes jahr mehr (weniger wohl kaum) immer mal drinne ist.
 
Nein, SSE4A und SSE4 haben bis auf dem Namen nichts gemeinsam, die Menge der gemeinsamen Befehle ist genau Null.

Das die Befehlssätze überhaupt einen so ähnlichen Namen haben ist wohl den jeweiligen Marketingabteilungen zuzuschreiben. Dazu kommt ja auch noch, dass der Penryn nicht sämtliche SSE4-Befehle mitbringt, nur die meisten, nämlich 47 von 54. Das nennt man inzwischen SSE4.1, obwohl es weniger als SSE4 ist...
http://www.computerbase.de/news/hardware/prozessoren/amd/2007/august/amd_sse5_bulldozer/

Intel hat ja die SSE4 einfach wahllos zusammengestellt, damit etwas Neues entsteht.
Angeblich ist die Quadrawurzel des Geburtstages von Intel-Chef Paul Otellini dabei fest verdrahtet mit integriert worden ;D

SSE5 wird wohl ählich wie x86-64 von AMD als 'intelligentes Design' mit gut 2 Jahren Vorlauf zwischen Definition und Auslieferung vorbereitet.
 
Paasend zum Thema:

Klick


MfG nookie
 
.....Es sollen mathematische bzw. logische Operationen zukünftig statt mit zweien mit drei Operanden ausgeführt werden können, beispielsweise beim häufig genutzten Fused Multiply Accumulate-Befehl, der einen Floating-Point auf die Multiplikation zweier anderer FP-Werte aufaddiert, in nur einem Arbeitszyklus. Die Nutzung dieser Möglichkeiten hat bereits bei Grafikkarten Leistungszuwächse erbracht.

amd fängt wohl an das know-how von ati zu nutzen und baut es in ihre cpus ein. ist wohl nur ein logischer schritt, da doch die gpus richtig viel rechenpower haben ;D
 
Und wo liegt jetzt dieses Definitive? Ich mein, AMDs Lösung für den Bulldozer muss doch nicht die gleiche sein wie anno dazumal. Von daher kann es doch wohl auch sein, dass AMD sich für den Bulldozer Tipps bei ATI einholt.
 
Sry deine Aussage macht irgendwie keinen Sinn.
Docht macht es .. und bitte hört jetzt mit dem OT hier auf. Bulldozer bekommt SSE5, alle Infos dazu stehen in der heise oder Register-Meldung (z.B. das AMD die Befehle von überallher abgeschaut hat (altivec, DSP Befehle usw.) und AMD hatte schon mal ne 3 Operanden FPU in der Schublade liegen. Die Wahrscheinlichkeit, dass ATi irgendwas damit zu tun hat, ist deshalb sehr gering.

Steht eigentlich auch schon alles hier im Thread .. man müßte nur lesen, bzw. die Links anklicken. Also das SSE5 Thema bitte für beendten betrachten, außer es gibt wieder was wirklich Neues dazu. Der Thread soll hier noch 2 Jahre überleben, das kann recht schnell unübersichtlich werden, was ich gerne vermeiden möchte.

ciao

Alex
 
Docht macht es .. und bitte hört jetzt mit dem OT hier auf. Bulldozer bekommt SSE5, alle Infos dazu stehen in der heise oder Register-Meldung (z.B. das AMD die Befehle von überallher abgeschaut hat (altivec, DSP Befehle usw.) und AMD hatte schon mal ne 3 Operanden FPU in der Schublade liegen. Die Wahrscheinlichkeit, dass ATi irgendwas damit zu tun hat, ist deshalb sehr gering.

Steht eigentlich auch schon alles hier im Thread .. man müßte nur lesen, bzw. die Links anklicken. Also das SSE5 Thema bitte für beendten betrachten, außer es gibt wieder was wirklich Neues dazu. Der Thread soll hier noch 2 Jahre überleben, das kann recht schnell unübersichtlich werden, was ich gerne vermeiden möchte.

ciao

Alex
Ich kann mich täuschen, war auch weit vor meiner Aktiven PC zeit, aber hatte der K5 nich nen 3 Operanden FPU??? Irgendwas war an dem doch so besonders das der ne Extrem hohe IPC hatte, nur durch zu geringe Anbindung (SPU intern und FSB) diesen Vorteil nie nutzen konnte.
 
Zurück
Oben Unten