Prognose-Board: Wie geht es bei AMD weiter? Entwicklungen / Strategien / Maßnahmen, die AMD betreffen bzw. die AMD treffen könnte

@BR

vr-zone hat es mehr mit Schlagzeilen auch wenn die direkt verlinkten Quellen ihre Hypothese nicht wiederspricht. 2 Min lesen und nachdenken hilft, vieleicht siehst du dann selbst wo der Haken bei der vr zone news ist. Da deine interpretation dieses tweets wohl genauso falsch ist wie die von vr zone, kann man sich die KV spekulation sparen.
 
@FalconFly
Ok, der Zugfahrgast war ein gutes Beispiel!
Aber ganz ohne Software bringt dir auch die Spezialeinheit nichts, man muss sie ja auch "ansprechen".

Die 30x Beschleunigung ist auch etwas abgerundet, es sind mehr aber eben nur beim Prime Number chrunchen.

Jo.... und in normaler high performance Software ausserhalb der Benchmarks wenn's hoch kommt 15% - und das waere schon recht gut ... So wie ueblich halt.
30x ist einfach unrealistisch unter realen Bedingungen und letztendlich nichts als blinde Traumtaenzerei.

Gab schon viele neue SIMD-Funktionen und -Einheiten, und keine erreichte auch nur annaehernd einen 2x Performancesprung durch die Bank in freier Wildbahn. Diese wird keine Ausnahme sein.
 
Zuletzt bearbeitet:
Gerade beim surfen nach bhavari und amur auf einen interessanten Gedanken gestoßen.

2015 laufen die gegenseitigen Lizenzen von AMD und Intel aus. AMD könnte ohne X86 dastehen, den Stecker ziehen und komplett auf ARM schwenken. Intel könnte ohne x64 dastehen. Nur dumm, das Intel auf Gedeih und Verderb auf x64 angewiesen ist.

Erklärt das den steigenden Kurs? Legt AMD hinter den Kulissen bereits seinem Rivalen die Daumenschrauben an? Wir am Ende der Informationskette würden so etwas frühestens in Monaten mitbekommen...
 
Gerade beim surfen nach bhavari und amur auf einen interessanten Gedanken gestoßen.

2015 laufen die gegenseitigen Lizenzen von AMD und Intel aus. AMD könnte ohne X86 dastehen, den Stecker ziehen und komplett auf ARM schwenken. Intel könnte ohne x64 dastehen. Nur dumm, das Intel auf Gedeih und Verderb auf x64 angewiesen ist.

Erklärt das den steigenden Kurs? Legt AMD hinter den Kulissen bereits seinem Rivalen die Daumenschrauben an? Wir am Ende der Informationskette würden so etwas frühestens in Monaten mitbekommen...
Ist doch schon alt:

http://www.planet3dnow.de/cms/9200-...heitert-amd-setzt-auf-armv8-intel-ohne-amd64/

(Aber aufs Datum achten ^^)
 
AMD könnte ohne X86 dastehen, den Stecker ziehen und komplett auf ARM schwenken.

Für X86 sollten die Patente schon ausgelaufen sein, einen 486 müßte man doch schon ohne Patentprobleme bauen können. Aber die restlichen Patente, SSE, AVX, AES etc. wird Intel verteidigen. Zudem wird es einen Wust weiterer Patente geben, ohne die ein moderner Prozessor kaum effizient gebaut werden kann. Egal was sie machen, die Patente brauchen sie gegenseitig und werden sich schon einigen.
 
Jo.... und in normaler high performance Software ausserhalb der Benchmarks wenn's hoch kommt 15% - und das waere schon recht gut ... So wie ueblich halt.
30x ist einfach unrealistisch unter realen Bedingungen und letztendlich nichts als blinde Traumtaenzerei.

Gab schon viele neue SIMD-Funktionen und -Einheiten, und keine erreichte auch nur annaehernd einen 2x Performancesprung durch die Bank in freier Wildbahn. Diese wird keine Ausnahme sein.
Die 15% sind halt die üblichen Häppchen damit der Kunde bei Laune gehalten wird.
Wenn ich es richtig verstanden habe, dann kann FMA4 vier Operanten pro cycle ausführen.
Ein cycle hat eine abfallende und eine ansteigende Flanke (DDR),
Das würde bedeuten, wenn man eine 4 Operanten Software mit 3 Operanten vergleicht wird diese mit zunehmender Laufzeit immer schneller, da pro Takt (DDR) immer eine "Aufgabe" mehr erledigt wird.

Das erklärt dann natürlich auch die 30x Beschleunigung, es ist also Grundsätzlich Möglich.
Ist nur die Frage wieviel der Programmierer dafür haben will, denn mit Konverter geht das nicht, da muss man von vorne Anfangen und alles neu Programmieren.
Also schlechte Zeiten für C++ :)
 
Zuletzt bearbeitet:
4/3 ist prozentual immer noch das gleiche wie 400/300. Das mit 300x schneller ergibt für mich also immer noch keinen Sinn.
Die CPU arbeitet desweiteren auch nur mit steigenden Taktenflanken, DDR gibts nur beim RAM und der ist so oder so deutlich zu langsam um direkt aus ihm zu streamen. Das mit 3 bzw. 4 Operanden hat auch nichts mit einer unterschiedlichen Anzahl an Berechnungen zu tun im Prinzip ist es ja nur A=B+C*D vs. A=A+B*C ist. Wobei mir auf anhieb kein Algorithmis einfällt, den man nicht auch mit 3 Operanden gleich schnell programmieren könnte.
Wenn man viele Daten verarbeitet ist es nun zum einen gut viele Daten-Register in der CPU zu haben (durch x86/64 immer gleich) und als nächstes einen schnellen enstsprechend breit angebundenen L1D Cache zu besitzen. Dazu muss die CPU aber auch wieder intelligent genug gewesen die Daten vorarb alle in den Cache zu laden. Ansonsten trifft ein größerer Geschwindigkeitseffekt erst ein sobald man mehrmals mit den gleichen Daten arbeitet.
Als C++ Programmierer kann man auch genauso von FMA profitieren wenn man die Compiler Flags richtig setzt.

Wenn man seine Software optimieren möchte, ist es also zum einen wichtig darauf zu achten, dass die Daten möglichst alle in den Cache passen und, dass möglichst viele Befehle auf Kernebene parallel ausgeführt werden können. Dadurch kann man in einigen Fällen schon mehrere Faktoren an Geschwindigkeit herausholen. Ob die CPU jetzt FMA3 oder FMA4 kann ist da aber eher nebensächlich. Mit 128bit vs. 256bit SIMD ist von natur aus ja auch nur maximal Faktor 2 an Geschindigkeitszuwachs möglich und das auch nur dann wenn die Cachebandbreite im gleichen Maße steigt.
 
@tex_
Was verstehst du da nicht? Ob bei einem Takt 4 Operanten erledigt sind oder 3 summiert sich doch die Aufgabenmenge.
2 Takte FMA3 = 6
2 Takte FMA4 = 8
4 Takte FMA3 = 12
4 Takte FMA4 = 16
8 Takte FMA3 = 24
8 Takte FMA4 = 32
usw. Der Abstand wird immer größer je mehr Takte folgen.
Ich hab das nicht frei aus der Nase gezogen, es gibt inzwischen auch Benchmarks die das belegen mit 30x Leistungssteigerung.

Wenn es z.B. gelingt FMA4 (& XOP) bei Spiele zu nutzen, ist es wohl die erst CPU die eine GPU bei den Berechnungen unterstützen kann.
Das ist bisher ja immer noch umgekehrt, also die GPU unterstützt die CPU.
 
@tex_
Was verstehst du da nicht? Ob bei einem Takt 4 Operanten erledigt sind oder 3 summiert sich doch die Aufgabenmenge.
2 Takte FMA3 = 6
2 Takte FMA4 = 8
4 Takte FMA3 = 12
4 Takte FMA4 = 16
8 Takte FMA3 = 24
8 Takte FMA4 = 32
usw. Der Abstand wird immer größer je mehr Takte folgen.
Ich hab das nicht frei aus der Nase gezogen, es gibt inzwischen auch Benchmarks die das belegen mit 30x Leistungssteigerung.

Wenn es z.B. gelingt FMA4 (& XOP) bei Spiele zu nutzen, ist es wohl die erst CPU die eine GPU bei den Berechnungen unterstützen kann.
Das ist bisher ja immer noch umgekehrt, also die GPU unterstützt die CPU.

Das bleibt trotzdem linear. Bei 8000 Takten wären es dann 24000 zu 32000. 4 zu 3 bleibt 33% mehr, egal in welcher Zeit. Sonst müsste ein Haswell ja auch 30x schneller sein als ein AMD-Prozessor. Außer FMA4 ist ein Codewort für einen Prozessor mit Wurmloch-Technologie *suspect*;D

Ob FMA4 jemals eine Verbreitung erreicht, dass man es als relevant einstufen kann, wage ich zu bezweifeln. Ich erinnere nur an die 3DNow!-Einheit. Auch gelobt und gehypt und innerhalb kürzester Zeit vom Markt verschwunden ... AMD sollte eher mal dafür sorgen, dass vorhandene Features genutzt werden, anstatt immer mehr Features zu integrieren, die nur halbherzig genutzt werden und den Namen "Feature" kaum verdienen.

Gruß
 
Die offizielle Vorstellung von Beema und Mullins? Vom Bild her würde ich irgendwas mit Hardware vermuten ist aber ein schwaches Indiz. Mir wäre ja der 7600 Kaveri am liebsten aber das dauert ja noch.
Server-APU´s? Naja wird nur noch sinnlose Raten.

E: Ja ich gehe auch von Beema aus der Rest war mehr Wunschdenken ;-)
 
Zuletzt bearbeitet:
Beema dürfte vor der Türe stehen, wenn es schon erste Angebote von Notebooks mit Beema von Händlern gibt. Lenovo, Toshiba und Co wollen ihre neuen Produkte jetzt auch verkaufen dürfen, oder?
 
Vom Bild her würde ich irgendwas mit Hardware vermuten ist aber ein schwaches Indiz.
War da vorher ein anderes Bild oder (noch) weniger zu sehen? Jetzt ist da DIE-Shot zu sehen:



Das gebliche vom Hervorgehobenen sollte der Level 2 Cache in zwei Blöcken sein, die vier gleichen Blöcke direkt darunter die vier CPU Kerne, da oben der Speichercontroller und unten das meiste die GPU.

LG.
 
Das bleibt trotzdem linear. Bei 8000 Takten wären es dann 24000 zu 32000. 4 zu 3 bleibt 33% mehr, egal in welcher Zeit. Sonst müsste ein Haswell ja auch 30x schneller sein als ein AMD-Prozessor. Außer FMA4 ist ein Codewort für einen Prozessor mit Wurmloch-Technologie *suspect*;D

Ob FMA4 jemals eine Verbreitung erreicht, dass man es als relevant einstufen kann, wage ich zu bezweifeln. Ich erinnere nur an die 3DNow!-Einheit. Auch gelobt und gehypt und innerhalb kürzester Zeit vom Markt verschwunden ... AMD sollte eher mal dafür sorgen, dass vorhandene Features genutzt werden, anstatt immer mehr Features zu integrieren, die nur halbherzig genutzt werden und den Namen "Feature" kaum verdienen.

Gruß
*chatt* OK, ich sehe es ein, da habe ich was verdreht!
Haswell kann auch doppelt so schnell sein, wenn AVX2 genutzt wird.

Übrigens ist die Aufspaltung der Sets Intel zu verdanken, sie wollten kein SSE5 sondern 3 Operanten AVX.
Bezüglich AMD 3DNow!, der prefetcher ist heute auch bei den FX vorhanden, also so nutzlos kann es nicht gewesen sein. *noahnung*
 
@lordxraven
Wenn das Beema ist, dann ist Beema ein Kabini. Der Dieshot sieht jedenfalls bis ins Detail wie der von Kabini aus. Damit dürfte wohl primär der Turbo neu sein (das wäre dann eher ein neues Stepping) und möglicherweise ne andere Fertigung.

Jetzt hoffe ich noch auf eine extra-Maske für Mullins.
 
Möglich oder auch nicht gab doh auch eizelne alte die shots in Präsentationen, wobei ich dadurch nicht ausschliessen würde das es ein die ist.
 
@LoRDxRaVeN
War tatsächlich weniger vom Die zu sehen, der eingekreiste Teil war noch nicht da. Hab aber eher auf Beema spekuliert weil sonst nichts Sinn macht.
 
Die 15% sind halt die üblichen Häppchen damit der Kunde bei Laune gehalten wird.
Wenn ich es richtig verstanden habe, dann kann FMA4 vier Operanten pro cycle ausführen.
Ein cycle hat eine abfallende und eine ansteigende Flanke (DDR),
Das würde bedeuten, wenn man eine 4 Operanten Software mit 3 Operanten vergleicht wird diese mit zunehmender Laufzeit immer schneller, da pro Takt (DDR) immer eine "Aufgabe" mehr erledigt wird.

Das erklärt dann natürlich auch die 30x Beschleunigung, es ist also Grundsätzlich Möglich.
Ist nur die Frage wieviel der Programmierer dafür haben will, denn mit Konverter geht das nicht, da muss man von vorne Anfangen und alles neu Programmieren.
Also schlechte Zeiten für C++ :)

*ugh*
Meine Einschaetzung dieser ~15% sind die Grenzen des erfahrungsgemaess - mit vertretbarem Aufwand - machbaren. Sicher sind mit Handoptimierung zur Laufzeit noch etliche Prozente drin - aber dahinter steckt dann architekturspezifisches Know-how eines sehr faehigen ASM-Coders und der sehr betraechtliche Arbeitsaufwand.
Das ist allerdings nicht der Standard (leider), ganz im Gegenteil. Den Standard setzen nunmal die Faehigkeiten der Compiler.

Den Rest verstehe ich ehrlich gesagt nicht, denn es macht keinen Sinn. Diese CPU-Funktionen haben nichts mit Taktflanken zu tun (deren Instructions/Data sollte besser eh nicht aus dem DDR-RAM kommen sondern aus den deutlich leistungsfaehigeren Caches). Da wird definitiv nichts "zur Laufzeit" immer schneller (das waere wohl einer der kuriosesten Speedpathes, der jemals in einer CPU gefunden wurde - und muesste sofort von AMD durch ein Errata/neue Maske oder Microcode Patch behoben werden)

PS.
Einer der Hauptgruende fuer deine extreme Ueberschaetzung der Beschleunigung scheint mir, dass du u.U. nicht weisst, dass viele Rechenprobleme gar nicht mit derartigen Funktionen beschleunigt werden koennen.
Es sind Spezial-Funktionen fuer sehr spezielle Probleme und nicht in der Lage, "allgemeinen Code" ueberhaupt effektiv zu bearbeiten - geschweige denn zu beschleunigen.
Wenn sie mal anspringen, sind es sehr gute Sprinter - leider ist Alltagscode zudem eher eine vielfaeltige Decathlon-Disziplin und der Sprint faellt am Ende nur gering in's Gewicht. Ausnahmen gibt's nur wenige - aber immerhin sieht man zumindest bei denen dann sehr ordentliche Beschleunigung (darunter fallen oft Packer oder Krypto-Programme, sonst fallen mir nur z.B. handoptimierte BOINC CPU Clients ein - gerade bei denen haben sich einige Leute sehr viel Muehe gegeben und alles rausgeholt, was ueberhaupt geht [ selbst da war so etwas wie Faktor 2x schneller bereits geradezu sensationell ] ).
 
Zuletzt bearbeitet:
Und du willst genau was damit sagen? *noahnung*
Eigentlich nichts spezielles, es gibt nicht viele Programme wo ein FX bei Single Threadleistung einen 6C/12T überholt.
Interessanter weiße entsteht das Ergebnis nur mit einer langen Laufzeit und mit großen Datenaufwand.

@FalconFly
IPC wird meist falsch verstanden, das bedeutet nicht "Instructions per clock" sondern "per cycle". ;)
Danke für deine Erklärung.
 
Naja, es könnte theoretisch auch der ARM-Opteron vorgestellt werden.
Aber ich tippe auch auf Beema.


@LoRDxRaVeN
War tatsächlich weniger vom Die zu sehen, der eingekreiste Teil war noch nicht da. Hab aber eher auf Beema spekuliert weil sonst nichts Sinn macht.
 
Eigentlich nichts spezielles, es gibt nicht viele Programme wo ein FX bei Single Threadleistung einen 6C/12T überholt.

Sehe da jetzt nichts besonderes. Das sind alles übertaktete Systeme mit den unterschiedlichsten Speichereinstellungen.
Dazu kommt das der FX im Schnitt bei der Listung dort immer gute 500-600MHz mehr an Takt, sowie HighSpeed-Ram braucht um im ST auf das gleiche Level wie Ivy/Hsw zu kommen mit DDR3-1600er RAM. Ein Sandy mit 1833er RAM ist dann wieder unerreichbar für den FX mit einem GHZ mehr in ST.
Ohne NB/HT OC gehts auch nicht.
Interessanter weiße entsteht das Ergebnis nur mit einer langen Laufzeit und mit großen Datenaufwand.
Eigentlich nicht. Die Unterschiede zwischen Low/Mid/High sind mehr oder weniger rel. gleich.
 
@Raspo ARM Opteron hatte ich auch überlegt aber da Dell & Lenovo ja schon Modelle mit Beema haben würde ich mein Geld darauf wetten.
 
Zurück
Oben Unten