Intel Skylake "Extreme APU" - Neue CPU Architektur - DDR4 | AVX 3.2 | PCIe4 | iGPU Gen9 | 14nm | Isreal Team - 1H/2015

Duplex

Admiral Special
Mitglied seit
02.05.2009
Beiträge
1.909
Renomée
57
Intel Skylake
Neue CPU Architektur
DDR4
AVX 3.2
PCIe4
14nm
Entwicklung in Haifa "Israel" (Team vom Core2 & Sandy Bridge)


einleitunghezdo.png


avx38vy37.jpg


einleitung25fb7c.jpg


http://chinese.vr-zone.com/60095/ha...ddr4-memory-supposed-arrive-2014-q4-04192013/

http://www.icsr.agh.edu.pl/~kito/Arch/arch1-1-4B-x86.pdf
 
Zuletzt bearbeitet:
Schöne Bilder, die Du da gepostet hast. Aber warum ist das eine "Extreme APU"? Ist das um hier im AMD-Forum die Köpfe zum Rauchen zu bringen?

Ich denke eher, dass der 14nm Knights Landing ne Art Extrem-APU wird (Socket-Version), aber das ist eine andere Geschichte.

Ein bisschen mehr Text wäre cool.
 
Also wird AVX3 mit 512-Bit-Registern kommen. Spätestens dann ist auch Schluss mit Windows 7 (wenn man AVX3 nutzen will). MS wird´s freuen (wegen 256-Bit bin ich auf Win7/SP1 umgestiegen)!
Helle
 
Da frage ich noch weiter: Aber warum soll das überhaupt eine "APU" sein?
 
Kann sein, dass AVX3 über die Grafikeinheit realisiert wird. Knights Landing unterstützt auch AVX3 und Gen9 (Skylake-Grafik) soll ja auf Knights Landing basieren. Ein neuer Sockel wird da eh fällig wegen PCIe4
 
Zuletzt bearbeitet:
FredD

Frage ich mich auch, imho wert sich Intel ja gegen den Begriff APU und nutzt ihn nicht...
 
Meine Frage richtet sich ja nicht nur an Marketing(namen), sondern auch an die dahinter stehende technische Umsetzung. Wird hier das Konzept der Compute Shader kopiert/übernommen, oder anderweitig die FPU aufgepumpt?
.
EDIT :
.

...oder beides? Oder ein anderer technischer Ansatz?
.
EDIT :
.

@ Duplex
Übrigens: Du hast ja ein unheimliches Gespür dafür, die Titel deiner Threads nicht nur sinnlos aufzublasen, sondern auch noch polemisch aufzuladen "Extreme APU" und so. Das letzte mal hatten wir im Kabini-Thread schon den Zoff. Kannst nicht diesmal bitte darauf achten, WENIGER MÜLL IN DEN THREAD-TITEL ZU SCHREIBEN? ??? Übrigens ist mein Capslock gerade nur hängen geblieben, weil er manchmal das Gefühl hat, Duplex versteht das mit seinen geschätzten 8-12 Lebensjahren noch nicht so richtig.
 
Kann sein, dass AVX3 über die Grafikeinheit realisiert wird. Knights Landing unterstützt auch AVX3 und Gen9 (Skylake-Grafik) soll ja auf Knights Landing basieren. Ein neuer Sockel wird da eh fällig wegen PCIe4
Knights Landing ist doch ein Derivat von Larabee.... das ist doch keine GPU Technik, sondern sollte GPU Code auf x86 Kernen ermöglichen. AVX wird kaum auf Stream Prozessoren von GPUs laufen.

Edit:
Die Folien sind ja auch schon voller Fehler oder Irreführungen. Ein Haswell bringt ca. 1/4 DP Flops als ein Knights Korner laut Anandtech.:
The Xeon Phi consists of 64 x86 cores (256 threads), each with a 512-bit vector unit. The vector unit can dispatch 8 double precision SIMD operations. The Xeon Phi runs at 2 GHz (more or less, probably more soon) and thus delivers (2 GHz x 64 cores x 8 FLOPs) 1 TFlops. For comparison, a quadcore Haswell at 4 GHz will deliver about one fourth of that in 2013.
In der Folie wird das glatt verdoppelt beim Haswell ;)
 
Zuletzt bearbeitet:
Knights Landing ist doch ein Derivat von Larabee.... das ist doch keine GPU Technik, sondern sollte GPU Code auf x86 Kernen ermöglichen. AVX wird kaum auf Stream Prozessoren von GPUs laufen.

Edit:
Die Folien sind ja auch schon voller Fehler oder Irreführungen. Ein Haswell bringt ca. 1/4 DP Flops als ein Knights Korner laut Anandtech.:
In der Folie wird das glatt verdoppelt beim Haswell ;)

Man sollte die Folien vielleicht vorher mal genau anschauen ;)

Ich sehe, da steht erstens Xeon vor den ganzen CPUs und 2. steht über Haswell 2014. Ist also nur eine Schätzung für die auf Haswell basierenden Xeons. Da könnte 500 GFlops doch hinkommen.
 
Was natürlich logisch ist, statt 4 Kerne kommen eben 8 zum Einsatz, dann passt das ganze auch.
 
Grund für die Verdopplung bei Haswell ist FMA. Da wird jeweils die Multiplikation und Addition einzeln gezählt. Ob Marketing oder technisch begründet sei dahingestellt - AMD zählt genauso.
Haswell hat pro Core 2 Ports (0 und 1), die volle 256-Bit FMA abarbeiten können. Macht 8 Double-Precision (a 64-Bit) Flops/Clock/Core; dann Mul und Add einzeln gezählt = 16. Die 32 für AVX3 resultieren dann meiner Meinung nach aus der Erweiterung der Vector-Einheiten auf 512-Bit (CPU).
 
Edit:
Die Folien sind ja auch schon voller Fehler oder Irreführungen. Ein Haswell bringt ca. 1/4 DP Flops als ein Knights Korner laut Anandtech.:
In der Folie wird das glatt verdoppelt beim Haswell ;)


Gar kein Fehler. In der Folie geht es um die Haswell-EP/EX mit bis zu 14 bzw. 18 Kerne in 2014. Die bringen durch AVX2/FMA den doppelten theoretischen Peak Durchsatz mit zu Ivy Bridge. Das ist keine Neuheit. Die Skylake Angaben in der Folie sind für Consumer insofern interessant, als das diese Änderungen eben auch den Consumer Skylake betreffen sollten. Also AVX3.2, DDR4 usw.
 
Gar kein Fehler. In der Folie geht es um die Haswell-EP/EX mit bis zu 14 bzw. 18 Kerne in 2014.
Woraus liest du das denn bitte in den Folien? Da steht weder EX, noch EP.
.
EDIT :
.

Und wenn das so gerechnet wird, ist das recht ernüchternd für die Knights Landig Chips. eine verdreifachung der Terraflops wäre dann ausschließlich auf die Einführung von AVX 3.1 zurückzuführen.
 
Dual Precsion? (2. Folie) Wieder der Praktikant? Das ganze PDF war schon recht zusammengewürfelt.

@Complicated:
Vor AVX3.1 gab es KNI, was auch schon 512 Bit Register nutzte. Und übrigens sind die GCN-SIMD-Einheiten auch 16 SP Floats bzw. 512 Bit breit, rechnen dann aber 64 Elemente in 4 konsekutiven Zyklen. Das scheint ein "sweet spot" zu sein.

Die Verdreifachung der TFLOPS wäre auch fast schon mit der normalen Verbesserung von Parallelarchitekturen über die Zeit möglich.
 
The Xeon Phi consists of 64 x86 cores (256 threads), each with a 512-bit vector unit. The vector unit can dispatch 8 double precision SIMD operations. The Xeon Phi runs at 2 GHz (more or less, probably more soon) and thus delivers (2 GHz x 64 cores x 8 FLOPs) 1 TFlops. For comparison, a quadcore Haswell at 4 GHz will deliver about one fourth of that in 2013.

Gehts da um den aktuellen Phi? Das stimmt so dann nämlich nicht ganz. Wenn man FMA als zwei ops zählt, dann schafft der Phi 16 DP Flops pro Takt. Der Takt liegt dafür nur bei 1 statt 2 GHz, so kommt man dann wieder auf 1 TF.
 
nun, da würde mich wundernehmen ob die "bestimmten" Szenario praxisrelevant sind und also im extremfall Rechnungen auf der Prozessorfamilie wiederholt werden müssten. Intel sagt da nichts dazu, da es aber ein microcodefix gibt kann er mindestens praxisrelevant sein. Intel scheint es nicht zu kümmern ihre Kunden dementsprechend zu informieren. Wenigsten gibt es einen Nutzer, der einen Testcase erstellt hat, ihn jedoch nicht veröffentlichen will bis er den Fix damit getestet hat.
 
Zuletzt bearbeitet:
So, mal etwas Positives zu Intel ;):

Ich habe die uarch-Bilder aus einem super Überblicks-Artikel vom Ungarn Oliverda (den könnten wir hier vllt. übersetzt bringen, oder?) zu einer Animation verknüpft:
intel_uarch_anim00ik2.gif

Source: http://prohardver.hu/teszt/intel_architekturak_nehalemtol_skylake-ig/nyomtatobarat/teljes.html

Von da u. woanders hatte ich auch mal die Die-Shots zusammengebaut, um die wenigen groben Layout-Veränderungen in der grundsätzlichen Struktur (gibt es so auch bei AMD vom K7 bis XV!) zu zeigen, angefangen mit dem Pentium III:


 
In den neuesten Skylake Modellen wird das embedded DRAM jetzt an anderer Stelle angebunden.
Ehemals war es ein Victim-Cache des L3-Caches und damit auch näher an der GPU.
Jetzt liegt es jenseits des sog. System Agents, wo es als Puffer zum Speichercontroller fungiert.
MfG
 
Zurück
Oben Unten