SSE4a (K10) und SSE5 (Bulldozer) der nächste flop ?

Crunch3r

Vice Admiral Special
Mitglied seit
17.11.2005
Beiträge
704
Renomée
33
Standort
zu Hause
Wie will AMD verhindern das SSE4A und der kommende SSE5 Befehlssatz nicht floppt wie 3Dnow und 3Dnow+, da Intel SSE4A und auch SSE5 nicht lizensiert ?

Worauf stützte sich diese Aussage von AMD "With AMD revealing information about its upcoming desktop processor (Phenom), the company has stated that it delivers around 15-40% better performance than Intel's Core 2 Duo processor (Conroe)." ( http://www.digitimes.com/news/a20070606PD219.html ) ?

Die SPEC benchmarks wuden doch später als "INVALID" eingestuft...
 
Zuletzt bearbeitet:
Es wird nicht von unserem Mitbewerb abhängen, ob die Befehlssätze akzeptiert werden oder nicht. Viel wichtiger ist, erkennen die Kunden, welche Vorteile sie dadurch haben werden. Zudem muss die Software die Instrucktionen natürlich auch nutzen.
 
Es wird nicht von unserem Mitbewerb abhängen, ob die Befehlssätze akzeptiert werden oder nicht. Viel wichtiger ist, erkennen die Kunden, welche Vorteile sie dadurch haben werden. Zudem muss die Software die Instrucktionen natürlich auch nutzen.

Erst mal danke für die Antwort.

Wie sieht es denn mit dem Support von Microsoft für SSE4a und SSE5 aus (Visual Studio) soweit ich weiß wird SSE4a nicht von VS 2008 unterstützt und GCC ist ja nun mal ein Nieschenproduckt.
 
Hallo Herr Schmid,

die Antwort auf den zweiten Teil der obigen Frage würde mich aber auch sehr interessieren!

mfG
Michael Wolf
 
...und GCC ist ja nun mal ein Nieschenproduckt.
Du vergißt da eines, SSE5 zielt v.a. auf den HPC Markt, dort kompilieren / optimieren die Wissenschaftler selber. Visual Studio ist in dem Bereich ziemlich egal.

Ob es sich allerdings im Dektopbereich durchsetzt .. tja .. gute Frage da braucht es dann auf alle Fälle auch einen Windows Compiler.

ciao

Alex
 
Du vergißt da eines, SSE5 zielt v.a. auf den HPC Markt, dort kompilieren / optimieren die Wissenschaftler selber. Visual Studio ist in dem Bereich ziemlich egal.

Ob es sich allerdings im Dektopbereich durchsetzt .. tja .. gute Frage da braucht es dann auf alle Fälle auch einen Windows Compiler.

ciao

Alex

Das mag sein das SSE5 auf den HPC Markt ziehlt, aber warum sollte man sich als Wissenschaftler mit SSE5 auseinander setzen, wenn doch ALTIVEC z.b in den PS3's zur Verfügung steht oder in den CELL Blades ?

Dann baut man sich doch lieber einen PS3/CELL Cluster als sparsamer Wissenschaftler
(Einstein@Home z.B. Gaurav hat's gemacht...) und SSE5 ist doch auf den ersten Blick eine x86 konforme ALTIVEC Umsetzung ;)
 
Das mag sein das SSE5 auf den HPC Markt ziehlt, aber warum sollte man sich als Wissenschaftler mit SSE5 auseinander setzen, wenn doch ALTIVEC z.b in den PS3's zur Verfügung steht oder in den CELL Blades ?

Dann baut man sich doch lieber einen PS3/CELL Cluster als sparsamer Wissenschaftler
(Einstein@Home z.B. Gaurav hat's gemacht...) und SSE5 ist doch auf den ersten Blick eine x86 konforme ALTIVEC Umsetzung ;)
Äh ja stimmt, es fehlt nur leider die MultiCPU Unterstützung, ausserdem kann Cell Altivec auch nur mit den lahmen Power Cores abarbeiten, das bringt Dich nicht wirklich weiter .. ^^
Cell2 wird dann erstmal interessant, mit den double precession Unterstützung in den SPUs, aber selbst wenn es den dann gibt, sind die Opteron Cluster professioneller.

ciao

Alex
 
Äh ja stimmt, es fehlt nur leider die MultiCPU Unterstützung, ausserdem kann Cell Altivec auch nur mit den lahmen Power Cores abarbeiten, das bringt Dich nicht wirklich weiter .. ^^
Cell2 wird dann erstmal interessant, mit den double precession Unterstützung in den SPUs, aber selbst wenn es den dann gibt, sind die Opteron Cluster professioneller.

ciao

Alex

Doch schon ... du kannst ja die SPEs nutzen und Clustern kannst das ding auch wunderbar... UND die SPE's SIND in der lage double floats auszuführen.... (woher hast du deine info ?) der einzige unterschied ist halt das die double floats nicht so schnell sind wie die single float's sind... aber immer noch schneller als alles was mom. auf markt ist, wenn man die 6 SPEs (PS3)/(8 SPEs CELL blade) zusammen rechnet(parallel) als ein x86...
 
Zuletzt bearbeitet:
Mich würde interessieren wo der Unterschied zwischen SSE4a (AMD) und SSE4.1(Intel) liegt, ist das nur eine Namensgebung oder hat einer der beiden Seiten mehr Extensions bekommen ?
 
Mich würde interessieren wo der Unterschied zwischen SSE4a (AMD) und SSE4.1(Intel) liegt, ist das nur eine Namensgebung oder hat einer der beiden Seiten mehr Extensions bekommen ?

SSE4.1 ist im Yorkfield( INTEL) SSE4.2 ist im Nehalem(mit HT 2.0).

SSE4a ist eine AMD extension zum Befehlssatz und wird NICHTvon INTEL cpus genutzt/unterstützt

.... aber darauf haben wir ja noch keine klare Antwort erhalten. ;)
 
SSE4.1 ist im Yorkfield( INTEL) SSE4.2 ist im Nehalem(mit HT 2.0).

SSE4a ist eine AMD extension zum Befehlssatz und wird NICHTvon INTEL cpus genutzt/unterstützt

.... aber darauf haben wir ja noch keine klare Antwort erhalten. ;)


Danke, Danke das war mir aber schon klar ^^

Es ging mir nur um die Befehle die in so einem "Packet" enthalten sind, wer hat mehr und warum hat er das ? So meinte ich das eigentlich.
 
Danke, Danke das war mir aber schon klar ^^

Es ging mir nur um die Befehle die in so einem "Packet" enthalten sind, wer hat mehr und warum hat er das ? So meinte ich das eigentlich.

Wenn dir das hilft, kann ich die die SSE4.1 und SSE4.2 instructions von intel posten....
Das ist dann aber auch alles .... (PM an mich wenn dich das interessiert.. SUPERSHUFFLE in SSE4.1 etc...)


BTW, wir kommen von den eigentlich Fragen ab.... die immer noch nicht beantworetet wurden ;)
 
Doch schon ... du kannst ja die SPEs nutzen und Clustern kannst das ding auch wunderbar... UND die SPE's SIND in der lage double floats auszuführen.... (woher hast du deine info ?) der einzige unterschied ist halt das die double floats nicht so schnell sind wie die single float's sind... aber immer noch schneller als alles was mom. auf markt ist, wenn man die 6 SPEs (PS3)/(8 SPEs CELL blade) zusammen rechnet(parallel) als ein x86...
Ok, ja also, klar geht double precision, aber schneller als alles andre ist das nicht ...

Although the SPU double-precision (DP) floating-point is not as high as the single-precision performance, it is still good. Each SPU is capable of executing two DP instructions every seven cycles. With Fused-Multiply-Add, an SPU can achieve a peak 1.83GFLOPS at 3.2GHz. With eight SPUs and fully pipelined DP floating-point support in the PPE's VMX, the Cell BE is capable of a peak 21.03GFLOPS DP floating-point, compared to a peak of 230.4GFLOPS SP floating point.
http://www.ibm.com/developerworks/power/library/pa-cellperf/

Ein K10 oder ein Intel Quadcore schaffen da mehr, v.a. geht da noch was mit der Taktfrequenz:
http://www.anandtech.com/IT/showdoc.aspx?i=3091&p=6

Interessieren würde mich, ob man den Grafikkern im Fusion/Swift auch zum Berechnen rannehmen kann, das sollte dann auch gut mit Cell2 konkurrieren. Die Frage hab ich woanders gestellt, mal schauen :-)

@SoMTecH:
Vielleicht hilft das Bildchen:
0,1425,sz=1&i=168218,00.jpg


ciao

Alex
 
Zuletzt bearbeitet:
Ok, ja also, klar geht double precision, aber schneller als alles andre ist das nicht ...
Alex

Denkste ? die SPEs können das parallel ;)

Aber nun genug ... würde ja noch gern ne Antwort von AMD auf meine eigentlichen fragen bekommen ;)
 
Äh was "parallel" ? Jede einzelne SPE hat ~1,8 GFlops, ja ... aber mehr als die ~21 GFlops für einen Cell Chip geht nicht :)

ciao

Alex

Ich rede davon die double floats auf die 6 SPEs(8 beim cell und dass geht parallel ) zu verteilen ;)

Immer noch keine Antwort von AMD zu den eigentlich wichtigen Fragen ;)
 
Ich rede davon die double floats auf die 6 SPEs(8 beim cell und dass geht parallel ) zu verteilen ;)
Irgendwie steh ich auf den Schlauch ... was hat das denn für nen Vorteil ? Deswegen steigert sich doch nicht der Durchsatz, die Flops sind doch die Maximalleistung, oder habe ich das jetzt falsch verstanden ?
Cell hat ~21 GFlops, ein 2 GHz Opteron ungefähr genausoviel, Intels sind nochmal schneller ... oder reden wir aneinander vorbei ?

ciao

Alex

P.S: Ich glaub AMD arbeitet gerade die alten threads auf den letzten Seiten auf :)
 
Irgendwie steh ich auf den Schlauch ... was hat das denn für nen Vorteil ? Deswegen steigert sich doch nicht der Durchsatz, die Flops sind doch die Maximalleistung, oder habe ich das jetzt falsch verstanden ?
Cell hat ~21 GFlops, ein 2 GHz Opteron ungefähr genausoviel, Intels sind nochmal schneller ... oder reden wir aneinander vorbei ?

ciao

Alex

P.S: Ich glaub AMD arbeitet gerade die alten threads auf den letzten Seiten auf :)

Ja ...denn ich rede von der PS/3 mit dem PPC als CPU und zusätzlich den SPUs... ich denke wir beide reden aneinander vorbei ...

Aber ist nun eh egal den das AMD PR Team hat fluchtartig den Platz verlassen ;)
 
Zurück
Oben Unten