App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?
- Ersteller UNRUHEHERD
- Erstellt am
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Nein. Cache-Latenz und tatsächliche Performance sind zwei völlig verschiedene Paar Schuhe. Normalerweise bringen niedrigere Cache-Latenzen innerhalb der gleichen Architektur im Schnitt nur ein paar Prozent mehr Performance. Und je grösser der Cache wird, umso seltener werden die Fälle, wo die Cache-Stufe auch wirklich ausschlaggebend ist.bei File größen bis 8M ist das Verhalten der Maschine mit L4 identisch zu denen ohne L4
ab Filegrößen von 8M bis 256M wirkt sich der L4 in einer Verdoppelung der Performance aus
Vermutlich mit HBM. Und dann gibt's für Grafikanwendungen auch brauchbare Grössen von mehreren GB. Mit 128 MB kommst du da nicht weit.aber wie geht AMD denn die Bandbreitenfrage bei APUs an?
Die gibt's schon. Da muss keiner mehr suchen.Und AMD scheint ja immer noch auf der Suche zu sein nach einer sinnvollen Anwendung für die iGPU Leistung seiner Desktop-APUs
Ich weiss ja nicht was du aus deinen Quellen liest. Doch bei Anandtech steht: Iris Pro 5200 hat 832 GFlops und die HD 5000 ohne EDRAM 704 GFlops. Wo verdoppelt sich da irgendetwas? ...
die Vorgängergeneration ist gemeint, also hd4000 Derivate
...Vermutlich mit HBM. Und dann gibt's für Grafikanwendungen auch brauchbare Grössen von mehreren GB. Mit 128 MB kommst du da nicht weit.
Die gibt's schon. Da muss keiner mehr suchen.
HBM, das sehe ich auch so
intel hat für seine schnelleren gpu-lösungen aber in 2014 seriöse anwendungsvorschläge vorgelegt: http://www.anandtech.com/show/7851/intel-xeon-to-get-crystal-well-e31284l-v3
und die reine compute-leistung der intel-lösung ist auch ansehnlich: http://www.3dcenter.org/artikel/intel-iris-pro-5200-review/intel-iris-pro-5200-review-seite-7
siehe auch die "theoretischen" Tests
aber mit HBM lassen sich vermutlich nicht die Nachteile einer schwächeren CPU marginalisieren, drum wird, trotz HSA, Zen auch eine weitaus stärkere CPU werden, vermute ich
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Das hast du hier aber nirgends erwähnt - es geht um die Verdoppelung der Performance bei Verwendung des EDRAMS.
Also aus allen von dir verlinkten Quellen kann ich das lesen was ich auch vorher wusste. Dass es keine Verdoppelung zur Vorgänger GPU gibt. HD4000 Derivate haben eine so grosse Streuung, so dass man doch den schnellsten HD4xxx vergleichen sollte um eine solche Aussage zu verifizieren.
Meine Frage war: Welche Performance verdoppelt sich da?was man erreicht hat mit dem L4 zeigt ja die Grafik (http://images.anandtech.com/doci/6993/latency.png)
bei File größen bis 8M ist das Verhalten der Maschine mit L4 identisch zu denen ohne L4
ab Filegrößen von 8M bis 256M wirkt sich der L4 in einer Verdoppelung der Performance aus
ab 256M ergeben sich leichte Nachteile
Also aus allen von dir verlinkten Quellen kann ich das lesen was ich auch vorher wusste. Dass es keine Verdoppelung zur Vorgänger GPU gibt. HD4000 Derivate haben eine so grosse Streuung, so dass man doch den schnellsten HD4xxx vergleichen sollte um eine solche Aussage zu verifizieren.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Die haben was wofür vorgelegt?intel hat für seine schnelleren gpu-lösungen aber in 2014 seriöse anwendungsvorschläge vorgelegt
Das ist ja schön. Aber Nvidia ist nicht die Referenz beim Computing. Und erst recht nicht mit einer GT 640M.und die reine compute-leistung der intel-lösung ist auch ansehnlich
Für die Leistungsfähigkeit der iGPU ist das irrelevant. Und nur dort gibt es im Moment eine sichtbare Bandbreitenlimitierung der APUs.aber mit HBM lassen sich vermutlich nicht die Nachteile einer schwächeren CPU marginalisieren
derDruide
Grand Admiral Special
- Mitglied seit
- 09.08.2004
- Beiträge
- 2.724
- Renomée
- 432
- Prozessor
- AMD Ryzen 3900X
- Mainboard
- Asus Strix B450-F Gaming
- Kühlung
- Noctua NH-C14
- Speicher
- 32 GB DDR4-3200 CL14 FlareX
- Grafikprozessor
- Radeon RX 590
- Display
- 31.5" Eizo FlexScan EV3285
- SSD
- Corsair MP510 2 TB, Samsung 970 Evo 512 GB
- HDD
- Seagate Ironwulf 6 TB
- Optisches Laufwerk
- Plextor PX-880SA
- Soundkarte
- Creative SoundblasterX AE-7
- Gehäuse
- Antec P280
- Netzteil
- be quiet! Straight Power E9 400W
- Maus
- Logitech Trackman Marble (Trackball)
- Betriebssystem
- openSUSE 15.2
- Webbrowser
- Firefox
- Internetanbindung
- ▼50 MBit ▲10 MBit
Hallo clearlake,
da du jetzt doch mal wieder aufgetaucht bist, könntest du noch meine Fragen zu deinem Marketing-Thread beantworten, zu finden hier: http://www.planet3dnow.de/vbulletin/showthread.php/420878-Core-m?p=4967628&viewfull=1#post4967628
Das ist unter dem Stichtwort "verdecktes Marketing" sicher auch für andere Leser interessant.
da du jetzt doch mal wieder aufgetaucht bist, könntest du noch meine Fragen zu deinem Marketing-Thread beantworten, zu finden hier: http://www.planet3dnow.de/vbulletin/showthread.php/420878-Core-m?p=4967628&viewfull=1#post4967628
Das ist unter dem Stichtwort "verdecktes Marketing" sicher auch für andere Leser interessant.
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Ja der Thread war mir auch noch im Hinterkopf.
Casi030
Grand Admiral Special
- Mitglied seit
- 03.10.2012
- Beiträge
- 8.942
- Renomée
- 153
das nächste AMD-Design wird eine weitaus stärkere CPU hervorbringen und AMD jedenfalls wird wissen warum (bzw. wozu), nicht wahr?
Nicht nur AMD,wenn AMD CPUs in Zukunft wie Intel arbeiten,dann kann Intel diese nicht wie jetzt ausbremsen ohne sich selber aus zu bremsen und somit werden die AMD deutlich an Leistung zulegen.
Wo soll da was wie bei Intel arbeiten?
Meinst du nur weil irgendwer behauptet, dass es ein SMT Design wird und kein CMT oder CMP, wird es ähnlich einem Intel Skylake? Was ich übrigens nicht erwarte, dafür skaliert CMT zu gut.
Aber selbst wenn dem so wäre, ist eine CPU ein zu komplexes Konstrukt, mit zig verschiedenen Stellschrauben, die gedreht werden können um Produkt A besser dastehen zu lassen als B. Und zur Not gibt es immer noch die Vendor ID, mit der man "ausschließen" kann, dass es sich um eine Intel CPU handelt.
Meinst du nur weil irgendwer behauptet, dass es ein SMT Design wird und kein CMT oder CMP, wird es ähnlich einem Intel Skylake? Was ich übrigens nicht erwarte, dafür skaliert CMT zu gut.
Aber selbst wenn dem so wäre, ist eine CPU ein zu komplexes Konstrukt, mit zig verschiedenen Stellschrauben, die gedreht werden können um Produkt A besser dastehen zu lassen als B. Und zur Not gibt es immer noch die Vendor ID, mit der man "ausschließen" kann, dass es sich um eine Intel CPU handelt.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Gerüchte von Fudzilla zu einer Zen APU. 16 Kerne, 4 Module mit je 4 Kernen, L2 pro Kern, shared L3 pro Modul, Quad-Channel DDR4, PCIe 3, HBM. Was immer man von solchen Gerüchten halten mag. Hört sich auf jeden Fall eher nach einer Server APU an. Im Desktop braucht man sicherlich nicht so viele Kerne und auch keine Quad-Channel Speicheranbindung. Dank einer solchen Modulbauweise könnte man aber sicherlich auch problemlos 4 oder 8 Kerne im Desktop anbieten. Siehe die Jaguar CU, die schon ähnlich konzipiert war. Nur dass bei Zen scheinbar ein dedizierter L2 hinzugekommen ist und aus dem shared Cache L3 wurde. Sicherlich sinnvoll, um die Cache Performance zu erhöhen. Bei Jaguar lief der L2 ja nur mit Halbtakt. Fragt sich nur, ob AMD das CMT Konzept weiterentwickelt und auf 4 Threads erweitert hat. Oder ob die Module wie bei Jaguars CU aus vollwertigen Kernen bestehen.
BoMbY
Grand Admiral Special
- Mitglied seit
- 22.11.2001
- Beiträge
- 7.468
- Renomée
- 293
- Standort
- Aachen
- Prozessor
- Ryzen 3700X
- Mainboard
- Gigabyte X570 Aorus Elite
- Kühlung
- Noctua NH-U12A
- Speicher
- 2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
- Grafikprozessor
- RX 5700 XTX
- Display
- Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
- SSD
- AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
- Optisches Laufwerk
- Sony BD-5300S-0B (eSATA)
- Gehäuse
- Phanteks Evolv ATX
- Netzteil
- Enermax Platimax D.F. 750W
- Betriebssystem
- Windows 10
- Webbrowser
- Firefox
Derzeit braucht man so viele Kerne nicht auf einem Desktop. Wenn die Next-Gen-APIs aktiv genutzt werden, dürfte sich das ändern - wenigstens 8 Kerne sollte man dann für Gaming schon haben. Aber auch für Video-Bearbeitung/Darstellung könnte sich das lohnen.
Opteron
Redaktion
☆☆☆☆☆☆
Um genauer zu sein L3 pro 4-Kern-Gruppe, d.h. auf die Caches der anderen 4 Module hat man keinen Zugriff?.. L2 pro Kern, shared L3 pro Modul,
Ich hoffe mal das stimmt nicht, dann müsste man wieder wie in K8-Zeiten Daten übers RAM austauschen
Außerdem:
L2 pro Kern klingt nach nem kleinen L2 nach Intelrezept.
Wenn man wirklich ne Katzen-XBar als Ausgangsbasis genommen hat, kann man damit den L3 wohl auf halber Kraft lassen.
Stellt sich dann die Frage, wie ähnlich Zen den Katzenkernen wird. Die Frage ist aber offen, nur weil man die XBar wiederverwertet muss das nichts heißen. Ist halt ne Sparmaßnahme, die Xbar gibts schon, also wirds genommen. Verbreitert wird sie aber hoffentlich noch...
Nachdem Keller bisher 1MB L2 bevorzugte, geh ich mal von 4 MB L3 aus. Für den L2 blieben dann wie bei Intel um die 256 kB übrig, vielleicht auch nur 128, 512 könnte man in dem Fall sicherlich ausschließen.
Ein 4er CMT schließe ich eher aus, der neue Kern sollte ja ne gute IPC bekommen, dafür braucht man breite ALUs und viel L1-Cache. Das ist aber nicht wirklich drin, wenn man 4 Cluster anstatt eines fetten Kerns haben will.
Außer man triebe es auf die Spitze und würde auch noch die L1-Caches sharen, was dann aber der Zugriffzeit zuwider liefe - erst recht bei 4 CUs.
Immerhin kann man aber schon eins sagen: Nach der Nomenklatur gäbs kein SMT, es wird ja immer von Cores gesprochen.
Naja warten wir mal weiter ...
APU für HPC, siehe Roadmaps.
Jupp, genauer gesagt die geleakten japanischen.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Ich sehe darin absolut kein Problem. Lieber für den Grossteil der Workloads einen schnellen L3 als für ein paar wenige Workloads den Umweg RAM nicht gehen zu müssen. So eine Modulbauweise hat eben den Vorteil, dass es das Design sehr flexibel macht. Für AMDs Semi-Custom Pläne sicherlich nicht die schlechteste Basis. Und je mehr Parallelität ins Spiel kommt, umso mehr rückt die Speicherlatenz sowieso in den Hintergrund. Mit steigender Anzahl an Kernen wird es auch immer schwieriger und komplexer, einen shared Cache für alle Kerne zu implementieren. Intel zB muss Abstriche beim L3 ihrer Core Prozessoren machen. Nur das L3 Segment, welches direkt am Kern hängt, kann mit der niedrigsten Latenz angesprochen werden. Für andere Kerne ist die Latenz höher. Dann lieber einen kompakten und einheitlichen L3 für wenige Kerne und HBM als LLC für alle Kerne nutzen. Ist mMn deutlich sinnvoller aufgrund der weitaus höheren Kapazität von HBM.Um genauer zu sein L3 pro 4-Kern-Gruppe, d.h. auf die Caches der anderen 4 Module hat man keinen Zugriff?
Ich hoffe mal das stimmt nicht, dann müsste man wieder wie in K8-Zeiten Daten übers RAM austauschen
Wieso? Apple hat beim A8 neben einem 4 MB L3 einen 1 MB L2 für einen Kern. 1 MB L2 pro Kern hatten auch schon die alten K8. Und bei Carrizo (Excavator) ist dies ja auch der Fall, zumindest pro Modul. 256 KB ist mMn einfach zu winzig für einen L2. 1 MB sollte im Moment ein guter Kompromiss aus Grösse und Latenz sein.L2 pro Kern klingt nach nem kleinen L2 nach Intelrezept.
Wer spricht von 4 Clustern? 2 Cluster mit je 2-fach SMT wären ein guter Kompromiss aus hoher singlethreaded und multithreaded IPC. Zwei Cluster hat man ja bereits bei Bulldozer. Man müsste im Grunde die Integer Cluster einfach nur verbreitern, auf 6 oder 8 ALUs/AGUs, und ähnlich wie bei der FPU SMT implementieren. Ausschliessen würde ich es daher nicht. Auch wenn ich im Moment eher zu klassischen Einzelkernen tendiere. Cyclone lässt grüssen.Ein 4er CMT schließe ich eher aus, der neue Kern sollte ja ne gute IPC bekommen, dafür braucht man breite ALUs und viel L1-Cache. Das ist aber nicht wirklich drin, wenn man 4 Cluster anstatt eines fetten Kerns haben will.
y33H@
Admiral Special
- Mitglied seit
- 16.05.2011
- Beiträge
- 1.768
- Renomée
- 10
Die sind recht alt, im Original von der HPC China von November 2014.Jupp, genauer gesagt die geleakten japanischen.
Carrizo und der K8 haben keinen L3-Cache. Da ergibt es evtl. mehr Sinn den L2-Cache etwas größer auszuführen.Wieso? Apple hat beim A8 neben einem 4 MB L3 einen 1 MB L2 für einen Kern. 1 MB L2 pro Kern hatten auch schon die alten K8. Und bei Carrizo (Excavator) ist dies ja auch der Fall, zumindest pro Modul. 256 KB ist mMn einfach zu winzig für einen L2. 1 MB sollte im Moment ein guter Kompromiss aus Grösse und Latenz sein.
Wobei man beim K8 bei vielen Anwendungen auch keinen großen Unterschiede zwischen 512 kiB L2-Cache und 1024 kiB L2-Cache bemerkt.
Als Gedankenspiel könnte man bei einem 16 Kerner noch weiter gehen. Single-Threaded nutzt man den vollen L2-Cache sowie L3-Cache, welche beide mit ihrer maximalen Frequenz betrieben werden (=Turbo-Modus). Sofern "viele" Kerne ausgelastet werden, senkt man die Cache-Taktraten ab und kann evtl. sogar Teile der L2-Caches abschalten. Sofern man damit z.B. 15 % Energie spart, nur 5 % IPC verliert und mit den 15 % Energieeinsparung den Takt um 10 % anheben kann, lohnt sich das. Wobei natürlich einiges an Aufwand dahinter steckt.
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Ob hier auch schon der Cache ähnlich wie HBM als stacked Module auf einem Interposer Platz finden? Irgendwie erscheint mir DDR4-Quadchannel UND HBM auf der selben APU nicht sinnvoll.
bschicht86
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 14.12.2006
- Beiträge
- 4.249
- Renomée
- 228
- BOINC-Statistiken
- Prozessor
- 2950X
- Mainboard
- X399 Taichi
- Kühlung
- Heatkiller IV Pure Chopper
- Speicher
- 64GB 3466 CL16
- Grafikprozessor
- 2x Vega 64 @Heatkiller
- Display
- Asus VG248QE
- SSD
- PM981, SM951, ein paar MX500 (~5,3TB)
- HDD
- -
- Optisches Laufwerk
- 1x BH16NS55 mit UHD-BD-Mod
- Soundkarte
- Audigy X-Fi Titanium Fatal1ty Pro
- Gehäuse
- Chieftec
- Netzteil
- Antec HCP-850 Platinum
- Betriebssystem
- Win7 x64, Win10 x64
- Webbrowser
- Firefox
- Verschiedenes
- LS120 mit umgebastelten USB -> IDE (Format wie die gängigen SATA -> IDE)
Irgendwie erscheint mir DDR4-Quadchannel UND HBM auf der selben APU nicht sinnvoll.
Gerade für die Serverumgebung würde ich das Sinnvoll finden. Schneller, großer L4-Cache im Form von HBM und zusätzlich 4 DDR4-Kanäle für höchstmöglichen Speicherausbau.
Für den "einfachen" Desktop-Betrieb kann man ja dann 2 DDR4-kanäle wegschalten, dafür mit HBM als APU oder 4 Kanäle DDR4 ohne iGPU/HBM für den Gamer-Bereich.
Opteron
Redaktion
☆☆☆☆☆☆
Ok ist ein Punkt, je paralleler desto unabhängiger werden die Threads sein, ansonsten würde sich die Parallelität nicht rentieren.Ich sehe darin absolut kein Problem. Lieber für den Grossteil der Workloads einen schnellen L3 als für ein paar wenige Workloads den Umweg RAM nicht gehen zu müssen. So eine Modulbauweise hat eben den Vorteil, dass es das Design sehr flexibel macht. Für AMDs Semi-Custom Pläne sicherlich nicht die schlechteste Basis. Und je mehr Parallelität ins Spiel kommt, umso mehr rückt die Speicherlatenz sowieso in den Hintergrund.
Jein ... auch wenn das schon richtig ist was Du sagst, wärs bei nem 4x4=16core schon ganz nett, wenn ein Thread dann nen Riesen-L3-Cache vorfände. Zumindest aus Enthusiasten/Spielersicht, denn Spiele mögen bekanntlich große Caches. Sah man auch beim Übertakten der NB beim K10/BD.Intel zB muss Abstriche beim L3 ihrer Core Prozessoren machen. Nur das L3 Segment, welches direkt am Kern hängt, kann mit der niedrigsten Latenz angesprochen werden. Für andere Kerne ist die Latenz höher. Dann lieber einen kompakten und einheitlichen L3 für wenige Kerne und HBM als LLC für alle Kerne nutzen. Ist mMn deutlich sinnvoller aufgrund der weitaus höheren Kapazität von HBM.
HBM als LLC ..weiss nicht, das sind dann doch gleich 8 GB oder mehr, da würd ich fast nicht mehr von Cache reden. Aber gut, wenn das RAM infolgedessen eine deutlich bessere Latenz bekommt ists wohl auch wieder egal.
Ne für 2 Kerne. Apple hat quasi Dual-Cluster, wie Intel früher zu S775-Zeiten.Wieso? Apple hat beim A8 neben einem 4 MB L3 einen 1 MB L2 für einen Kern.
Nichts gegen 1MB L2, aber das ist mMn zuviel, AMD will ja eher kleine Kerne produzieren, da seh ich keinen Spielraum für einen einzigen Kern/Thread 1 MB zu verbauen. Insbesondere auch, wenns dann noch 4MB L3 gibt. Als AMD mit dem K10 den L3 einführte, schrumpfte der L2 ja auch auf 512 kB. Außerdem ist der aktuelle L2 der Katzenkerne inklusive der L1-Daten. Wenn man dann dessen XBar-Design übernimmt, würde ich darauf schließen, dass man das mitnehmen würde. Damit müsste es dann eher ein kleiner L2 werden, 4x1MB würden ansonsten die 4MB L3 total nutzlos machen.256 KB ist mMn einfach zu winzig für einen L2. 1 MB sollte im Moment ein guter Kompromiss aus Grösse und Latenz sein.
Ist jetzt nur die Frage, ob sie sich den Aufwand gemacht haben könnten von inclusive auf exclusive gewechselt zu sein ... wie schätzt Du das sein?
Ich sehs eher gering, ich denke man wird sich auf die Cores konzentrieren und keine 2. Baustelle mit potentiellen Bugs aufreißen.
Bei der Cache-Wahl spielt auch die Speicherkohärenz bei größeren Setups mit rein. Wenn man mehrere Quad-Cluster hat, wäre ein Speicherabgleich nur über die L3s wohl auch einfacher zu realisieren, als wenn man auch noch x-mal vier L1+L2 abfragen müsste. Je mehr Cluster, desto komplexer wirds.
Wäre es ja, aber im Ursprungsartikel steht nur "Cores". Das kann man bestenfalls mit einen BD-INT-Cluster übersetzten, aber nicht mit SMT. Es sei denn, man wäre auf den Marketingbegriff "virtual cores" reingefallen, fände ich bei ner Architekturbeschreibung überraschend, aber sicher weiss mans nie.Wer spricht von 4 Clustern? 2 Cluster mit je 2-fach SMT wären ein guter Kompromiss aus hoher singlethreaded und multithreaded IPC.
Hast Du die Gerüchte um In-Order-SMT mitbekommen? Fänd ich eigentlich auch recht spannend. Gibt zwar dazu nur ein INTEL-Paper, aber so kompliziert sollte das auch für AMD nicht zu implementieren sein. Hat den charmanten Vorteil, dass man die vielen Schatten-OoO-Register im InO-Betrieb fest als Architekturregister einem Thread zur Verfügung stellen kann.Zwei Cluster hat man ja bereits bei Bulldozer. Man müsste im Grunde die Integer Cluster einfach nur verbreitern, auf 6 oder 8 ALUs/AGUs, und ähnlich wie bei der FPU SMT implementieren. Ausschliessen würde ich es daher nicht. Auch wenn ich im Moment eher zu klassischen Einzelkernen tendiere. Cyclone lässt grüssen.
Finde den Ansatz relativ clever. IPC interessiert im ultraparallelen Mth-Betrieb schließlich auch keinen mehr und man spart sich die Energie für die ganzen OoO-Logik, die mangels Schattenregistern sowieso immer ineffektiver werden würde.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Auch Spiele profitieren nicht endlos von Cache. Man sieht ja bei den 6- und 8-Kern i7, dass sie trotz der grossen Caches in Spielen kaum schneller als die kleineren 4-Kern i5/i7 sind. Zu grosse Caches sind mMn einfach Verschwendung. Dann lieber mehr Kerne/Shader implementieren. Bringt einfach mehr Performance. Erst recht mit Mantle/Vulkan/DX12. Und wie gesagt, im Vergleich zu HBM sind die bisherigen Caches eh ziemlich mickrig. Warum also Transistorbudget mit grossen Caches verschwenden, wenn HBM wesentlich mehr Kapazität bietet?Jein ... auch wenn das schon richtig ist was Du sagst, wärs bei nem 4x4=16core schon ganz nett, wenn ein Thread dann nen Riesen-L3-Cache vorfände. Zumindest aus Enthusiasten/Spielersicht, denn Spiele mögen bekanntlich große Caches. Sah man auch beim Übertakten der NB beim K10/BD.
Das war beim A7 so. Beim A8 sind die Caches physisch getrennt. Ob sie wirklich shared sind, ist daher fraglich. Die Reviews dazu sind etwas unklar. Könnten demnach 512 KB pro Kern sein.Ne für 2 Kerne.
Zen und K12 werden mit Sicherheit nicht klein, also im Vergleich zu anderen Kernen in gleicher Strukturbreite. Da sollten 1 MB L2 nicht das Problem sein. Selbst Intel setzt beim Xeon Phi auf 512 KB pro Kern. Allerdings haben die auch nur 32 KB L1D. So oder so, 512 KB L2 pro Kern sollten es mindestens sein. 256 KB sind einfach zu wenig. Das hat man schon bei den alten Semprons gesehen, die ja teilweise auch nur 256 KB hatten. Und dass AMD nun Geschwindigkeitsrekorde beim L3 aufstellt, ist auch nicht zu erwarten. Daher brauchen sie einfach eine gewisse Kapazität an L2.Nichts gegen 1MB L2, aber das ist mMn zuviel, AMD will ja eher kleine Kerne produzieren, da seh ich keinen Spielraum für einen einzigen Kern/Thread 1 MB zu verbauen.
Nein, der schrumpfte da nicht. Brisbane zuvor hatte ja auch nur 512 KB L2. Wenn dann schrumpfte der L2 von 90nm auf 65nm. Letztendlich ist es wohl eine Kosten-Nutzen-Frage und was an Transistorbudget verfügbar ist. Barcelona hatte ja auch nur 2 MB L3, weil einfach nicht mehr drin war, ohne das Die aufzublähen. Propus in 45nm hatte auch nur 512 KB K2, Llano in 32nm wiederum hatte 1 MB L2.Als AMD mit dem K10 den L3 einführte, schrumpfte der L2 ja auch auf 512 kB.
Umso mehr ein Grund, den L2 ausreichend gross zu machen. Bei 64 KB L1D und 256 KB L2 ist praktisch bereits ein Viertel der L2 Kapazität aufgrund der Inklusivität reserviert. Blieben effektiv noch 192 KB übrig. Einfach zu wenig.Außerdem ist der aktuelle L2 der Katzenkerne inklusive der L1-Daten.
Wieso? Der L3 war bei AMD bisher nicht inklusive, sondern ein Victim Cache. Und ich denke das wird sich auch nicht ändern. Womöglich ist auch das der Grund, warum Intel bei der Core Architektur den L2 bei 256 KB belässt. Dort ist der L3 inklusive. Bei mehr L2 würde zu viel an L3 verlorengehen.Wenn man dann dessen XBar-Design übernimmt, würde ich darauf schließen, dass man das mitnehmen würde. Damit müsste es dann eher ein kleiner L2 werden, 4x1MB würden ansonsten die 4MB L3 total nutzlos machen.
Den L1 musst du nicht abfragen, der ist ja bereits im L2. Aber deshalb bin ich auch kein Freund von zu vielen Cache Levels. Speicherkohärenz ist da nur ein Argument. Ich könnte mir vorstellen, das man in Zukunft nur noch L1 und L2 pro Kern und HBM als shared LLC hat. HBM bietet genügend Kapazität, um sämtlichen L2 Cache zu halten, auch bei grösseren L2 Caches. Speicherkohärenz könnte man dann darüber sicherstellen. Aber dafür ist die Integration von HBM vermutlich nächstes Jahr noch nicht so weit. Also wird man es erst mal über den L3 machen. Aber da dies bei den K10/BD MCM Designs auch schon mit getrennten L3 Caches gemacht wurde, wird man auch bei Zen eine Lösung finden.Bei der Cache-Wahl spielt auch die Speicherkohärenz bei größeren Setups mit rein. Wenn man mehrere Quad-Cluster hat, wäre ein Speicherabgleich nur über die L3s wohl auch einfacher zu realisieren, als wenn man auch noch x-mal vier L1+L2 abfragen müsste. Je mehr Cluster, desto komplexer wirds.
Darauf sollte man nicht viel geben. Spätestens seit BD wissen wir, wie irreführend solche Bezeichnungen sein können. Vorstellbar wäre auch ein Cluster bestehend aus 4 Integer Einheiten und 2-fach SMT pro Integer Einheit. Aber wie gesagt, vermutlich zu komplex und risikoreich in der Umsetzung. Die FPU müsste man dann auch verbreitern oder gar 2 FPU Cluster bereitstellen. Daher glaube ich, dass wir eher klassische single-threaded Kerne sehen.Wäre es ja, aber im Ursprungsartikel steht nur "Cores".
Du meinst die Spekulationen um MorphCore? Bin da eher etwas skeptisch. Letztendlich verfolgt man damit das gleiche Ziel wie HSA. Allerdings erscheinen mir dedizierte LCUs und TCUs für das Vorhaben effizienter und einfacher in der Umsetzung. LCUs und TCUs sind einfach zu verschieden, um sie effektiv innerhalb ein und derselben Architektur unterzubringen. Laut Intel kann MorphCore die single-threaded Performance leicht verringern und die multithreaded Performance um gut 20% erhöhen bei knapp 10% weniger Energiebedarf. Wunder sollte man also keine erwarten. Wenn man ersten geleakten Benchmarks (Geekbench 3) zu Skylake glauben darf, dann scheint sich die Performance auch in etwa zu bestätigen. Bei vergleichbarem Takt knapp hinter Haswell in single-threaded und etwa 15% vor Haswell in multithreaded. Bin da ehrlich gesagt eher auf VISC gespannt, die nochmals einen wesentlich radikaleren Ansatz verfolgen als MorphCore.Hast Du die Gerüchte um In-Order-SMT mitbekommen?
Opteron
Redaktion
☆☆☆☆☆☆
Naja, bei ein paar halt dann aber doch ... da ist ein alter Sandy 6core manchmal schneller als ein 1150-Haswell.Auch Spiele profitieren nicht endlos von Cache. Man sieht ja bei den 6- und 8-Kern i7, dass sie trotz der grossen Caches in Spielen kaum schneller als die kleineren 4-Kern i5/i7 sind.
Klar ist das nicht bei jedem Spiel so, aber wär halt "nett" soetwas mitnehmen zu können..
Wolltest Du nicht gerade 1MB L2?Zu grosse Caches sind mMn einfach Verschwendung. Dann lieber mehr Kerne/Shader implementieren. Bringt einfach mehr Performance.
Jojo HBM wird schon gut (hoffentlich ^^), wird man halt austesten müssen. AMDs L3 war bei BD im Vergleich zu Intels L3 auch kein Vergleich. Wenn Zen nicht schneller werden würde, könnte man stattdessen wohl auch HBM nehmen.Erst recht mit Mantle/Vulkan/DX12. Und wie gesagt, im Vergleich zu HBM sind die bisherigen Caches eh ziemlich mickrig. Warum also Transistorbudget mit grossen Caches verschwenden, wenn HBM wesentlich mehr Kapazität bietet?
Bis Du Dir da sicher? Die Memory-Latenz bei Anandtech zeigt um die 512 kB keine Anomalitäten, erst ab ~800 kB steigen die Latenzen an, typisch für einen 1MB L2. Der L2 ist demnach sicher größer als 512 kB:Das war beim A7 so. Beim A8 sind die Caches physisch getrennt. Ob sie wirklich shared sind, ist daher fraglich. Die Reviews dazu sind etwas unklar. Könnten demnach 512 KB pro Kern sein.
http://www.anandtech.com/show/8554/the-iphone-6-review/2
Naja, hoffen kann man, aber ich denke statt den 1MB würde AMD die Transistoren anderweitig verbauen.Zen und K12 werden mit Sicherheit nicht klein, also im Vergleich zu anderen Kernen in gleicher Strukturbreite. Da sollten 1 MB L2 nicht das Problem sein.
Na die 32kb L1 haben alle Intels, das erklärts nicht. Vielmehr erklärt der nicht vorhandene L3 den größeren L2.Selbst Intel setzt beim Xeon Phi auf 512 KB pro Kern. Allerdings haben die auch nur 32 KB L1D.
Nachdem der Zen aber laut der aktuellen Quelle L3 bekommen soll, spräche das für einen kleineren L2.
Die hatten auch keine 4 MB L3So oder so, 512 KB L2 pro Kern sollten es mindestens sein. 256 KB sind einfach zu wenig. Das hat man schon bei den alten Semprons gesehen, die ja teilweise auch nur 256 KB hatten.
Vielleicht bekommt ZEN deswegen wie die Katzenkerne nur 32kB L1?Umso mehr ein Grund, den L2 ausreichend gross zu machen. Bei 64 KB L1D und 256 KB L2 ist praktisch bereits ein Viertel der L2 Kapazität aufgrund der Inklusivität reserviert. Blieben effektiv noch 192 KB übrig. Einfach zu wenig.
Du hast schon recht, bei 64kB L1 würden sich die 256 L2 nicht rentieren .. aber bei 32 scheint das ein gutes Mittel zu sein, da 32 kB selbst schon ne gute Hit-Rate liefern und zusammen mit (sehr schnellen) 256 kB L2 und L3 dann besser als 64kB L1 + langsamen 1MB L2 + noch langsameren L3 abschneiden.
Naja, das Victimcache-Konzept hatte man bei den Katzen ja schon aufgegeben. Da gabs zwar keinen L3, aber das ändert nichts am unterschiedlichen Konzept.Wieso? Der L3 war bei AMD bisher nicht inklusive, sondern ein Victim Cache. Und ich denke das wird sich auch nicht ändern.
Das ist definitiv der GrundWomöglich ist auch das der Grund, warum Intel bei der Core Architektur den L2 bei 256 KB belässt. Dort ist der L3 inklusive. Bei mehr L2 würde zu viel an L3 verlorengehen.
Hmm ja stimmt schon. Gerade gabs wieder nen Artikel mit Ursprungslink auf ne japanische Seite, dort stand im Orginal nur "many core / many threads".Darauf sollte man nicht viel geben. Spätestens seit BD wissen wir, wie irreführend solche Bezeichnungen sein können. Vorstellbar wäre auch ein Cluster bestehend aus 4 Integer Einheiten und 2-fach SMT pro Integer Einheit. Aber wie gesagt, vermutlich zu komplex und risikoreich in der Umsetzung. Die FPU müsste man dann auch verbreitern oder gar 2 FPU Cluster bereitstellen. Daher glaube ich, dass wir eher klassische single-threaded Kerne sehen.
Also alles offen.
Ja Morphcore wars. Hmm .. dass das ein HSA-Konkurrent sein sollte erkannte ich nicht, eben aus dem von Dir genannten Unterschieden von LCU<>TCU. Gegen die vielen kleinen GPU-Shader hat man doch keine Chance. Ne ich fands nur deshalb interessant den Throughput bei x86 Wald und Wiesencodes zu steigern, z.B. für unsere Boincfraktion. VISC ... ja sicherlich interessant, hört sich aber irgendwie viel zu fantastisch an, als dass ich das glauben kann ... naja warten wirs mal ab.Du meinst die Spekulationen um MorphCore? Bin da eher etwas skeptisch. Letztendlich verfolgt man damit das gleiche Ziel wie HSA. Allerdings erscheinen mir dedizierte LCUs und TCUs für das Vorhaben effizienter und einfacher in der Umsetzung. LCUs und TCUs sind einfach zu verschieden, um sie effektiv innerhalb ein und derselben Architektur unterzubringen. Laut Intel kann MorphCore die single-threaded Performance leicht verringern und die multithreaded Performance um gut 20% erhöhen bei knapp 10% weniger Energiebedarf. Wunder sollte man also keine erwarten. Wenn man ersten geleakten Benchmarks (Geekbench 3) zu Skylake glauben darf, dann scheint sich die Performance auch in etwa zu bestätigen. Bei vergleichbarem Takt knapp hinter Haswell in single-threaded und etwa 15% vor Haswell in multithreaded. Bin da ehrlich gesagt eher auf VISC gespannt, die nochmals einen wesentlich radikaleren Ansatz verfolgen als MorphCore.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Also ohne mich in eure Diskussion einmischen zu wollen, dazu habe ich zuwenig Einblick in ZEN und die aktuellen Architekturglanzleistungen...
@Opteron, also du darauf angesprochen hast dass man Schattenregister zu Architekturregistern umdeklarieren könnte, hatte ich ein großes "WTF?" im Gesicht.
Wie viele Register benutzt bzw. befüllt werden entscheidet doch der Compiler bzw. Assembler wenn der die Load bzw. MOV-Befehle generiert.
D.h. Ohne dass das Register direkt angesprochen wird, und mit Daten befüllt die man verrechnen will, hilft die Schiere Anzahl an Registern erstmal garnichts.
Wenn das ein allgemeines Architekturmerkmal ist, in Ordnung, dann werden die Compiler bzw. Assembler für die Architektur eben so ausgelegt dass sie das entsprechend nutzen.
Aber nur weil ein einziges Exemplar von x86er zig Register bietet, tun das die übrigen noch lange nicht und daher wird das auch kaum genutzt werden.
Oder bin ich da auf dem hölzernen Pfad?
Nebenbei bemerkt, helfen viele Register überhaupt was? - ich meine, die mesiten x86-Befehle arbeiten mit 2 oder 3 Operanden. Das Gros der Instruktionen ist auch noch destruktiv, das heißt eines der Operanden-Register wird vom Ergebnis überschrieben. Dann haben wir eine Handvoll Register für Schleifenzähler und dergleichen Kram aber das wars dann auch.
Nungut, man kann theoretisch schon die ganzen Operanden für 3 oder 4 Befehle im Voraus laden, aber ob das wiederum was bringt. Geladen werden müssen sie ja sowieso, also auch nicht weniger MOVs oder Speicherzugriffe.
Theoretisch kann man natürlich auch IN-ORDER-Kerne bauen und dann versuchen die LAtenzen durch SMT zu verstecken, haben nicht die ATOMs der ersten oder zweiten Generation sowas gemacht? - Gebracht hats ihnen aber auch eher wenig, die bobcats waren auch nicht größer und schon durchaus effiziente OoO-Kernchen.
Ob ZEN nun ein Katzen-Verwandter ist oder doch was anderes, werden wir ja wohl spätestens an den ersten DIE Shots erkennen können. Aber die Geschichte mit den Inklusiven Caches ist ja nun auch nicht so als Könnte AMD nichts anderes bauen. Man kann auch die XBAR von Bulldozer nehmen und statt dem L3 dann HBM anflanschen.
Die ganze Diskussion um caches deutet zumidnest an dass auch AMD erkannt hat, dass eine anständige Cache-Pipeline mindestens so wichtig ist wie die Rechenpipeline an sich.
Die Effizientesten ALUs nutzen nichts wenn sie auf Daten warten müssen.
Und wisst ihr was das hervorstechendste Charakteristikum unserer CPUs heute ist? - Mit jeder Generation lernen sie schneller zu warten.
@Opteron, also du darauf angesprochen hast dass man Schattenregister zu Architekturregistern umdeklarieren könnte, hatte ich ein großes "WTF?" im Gesicht.
Wie viele Register benutzt bzw. befüllt werden entscheidet doch der Compiler bzw. Assembler wenn der die Load bzw. MOV-Befehle generiert.
D.h. Ohne dass das Register direkt angesprochen wird, und mit Daten befüllt die man verrechnen will, hilft die Schiere Anzahl an Registern erstmal garnichts.
Wenn das ein allgemeines Architekturmerkmal ist, in Ordnung, dann werden die Compiler bzw. Assembler für die Architektur eben so ausgelegt dass sie das entsprechend nutzen.
Aber nur weil ein einziges Exemplar von x86er zig Register bietet, tun das die übrigen noch lange nicht und daher wird das auch kaum genutzt werden.
Oder bin ich da auf dem hölzernen Pfad?
Nebenbei bemerkt, helfen viele Register überhaupt was? - ich meine, die mesiten x86-Befehle arbeiten mit 2 oder 3 Operanden. Das Gros der Instruktionen ist auch noch destruktiv, das heißt eines der Operanden-Register wird vom Ergebnis überschrieben. Dann haben wir eine Handvoll Register für Schleifenzähler und dergleichen Kram aber das wars dann auch.
Nungut, man kann theoretisch schon die ganzen Operanden für 3 oder 4 Befehle im Voraus laden, aber ob das wiederum was bringt. Geladen werden müssen sie ja sowieso, also auch nicht weniger MOVs oder Speicherzugriffe.
Theoretisch kann man natürlich auch IN-ORDER-Kerne bauen und dann versuchen die LAtenzen durch SMT zu verstecken, haben nicht die ATOMs der ersten oder zweiten Generation sowas gemacht? - Gebracht hats ihnen aber auch eher wenig, die bobcats waren auch nicht größer und schon durchaus effiziente OoO-Kernchen.
Ob ZEN nun ein Katzen-Verwandter ist oder doch was anderes, werden wir ja wohl spätestens an den ersten DIE Shots erkennen können. Aber die Geschichte mit den Inklusiven Caches ist ja nun auch nicht so als Könnte AMD nichts anderes bauen. Man kann auch die XBAR von Bulldozer nehmen und statt dem L3 dann HBM anflanschen.
Die ganze Diskussion um caches deutet zumidnest an dass auch AMD erkannt hat, dass eine anständige Cache-Pipeline mindestens so wichtig ist wie die Rechenpipeline an sich.
Die Effizientesten ALUs nutzen nichts wenn sie auf Daten warten müssen.
Und wisst ihr was das hervorstechendste Charakteristikum unserer CPUs heute ist? - Mit jeder Generation lernen sie schneller zu warten.
Das einzige was ich mir bei den Registern vorstellen könnte ist, dass man die OoO Register, als Architekturregister für einen weiteren SMT Thread nutzt. Das bedeutet dann aber, dass man im OoO Modus eben kein SMT nutzen kann. Wirklich viel Sinn macht das für mich aber auch nicht.
Entweder kann man mit dem Code die ALUs nicht perfekt auslasten, dann bringt OoO deutlich mehr Leistung als in-order, oder man kann es und nutzt den sparsamen in-order Modus, aber dann sollte der Theorie nach auch mit SMT nichts mehr rauszuholen sein.
Letztlich wird man das Kerndesign auf eine möglichst gute Out-of-Order Leistung gegebenenfalls gepaart mit SMT auslegen, das Abschalten der OoO Engine wäre dann höchstens noch zum Energiesparen gut.
Und da sind wir dann wieder beim "schneller warten". Eigentlich sollte eine neuere Generation gerade hier ansetzen und anstatt zu warten sich einfach schlafen legen.
Schnell laufen braucht die CPU ja nur, wenn sie auch etwas zum abarbeiten bekommt.
Entweder kann man mit dem Code die ALUs nicht perfekt auslasten, dann bringt OoO deutlich mehr Leistung als in-order, oder man kann es und nutzt den sparsamen in-order Modus, aber dann sollte der Theorie nach auch mit SMT nichts mehr rauszuholen sein.
Letztlich wird man das Kerndesign auf eine möglichst gute Out-of-Order Leistung gegebenenfalls gepaart mit SMT auslegen, das Abschalten der OoO Engine wäre dann höchstens noch zum Energiesparen gut.
Und da sind wir dann wieder beim "schneller warten". Eigentlich sollte eine neuere Generation gerade hier ansetzen und anstatt zu warten sich einfach schlafen legen.
Schnell laufen braucht die CPU ja nur, wenn sie auch etwas zum abarbeiten bekommt.
... D.h. Ohne dass das Register direkt angesprochen wird, und mit Daten befüllt die man verrechnen will, hilft die Schiere Anzahl an Registern erstmal garnichts.
x86 ist aber keine Zwei-Adress-Maschine, wie es z. B. die 68000er waren oder gar die NS32x32 mit zwei Quell- und einer Zieladresse (voll orthogonal, wurde meines Wissens nie wieder erreicht).
Du hast nie in Assembler programmiert?... Nebenbei bemerkt, helfen viele Register überhaupt was? - ich meine, die mesiten x86-Befehle arbeiten mit 2 oder 3 Operanden. Das Gros der Instruktionen ist auch noch destruktiv, das heißt eines der Operanden-Register wird vom Ergebnis überschrieben. Dann haben wir eine Handvoll Register für Schleifenzähler und dergleichen Kram aber das wars dann auch. ...
Dann wüsstest du nämlich, dass man eigentlich nie genug Register haben kann:
Wenn eines der Operanden-Register vom Ergebnis überschrieben wird und man die ursprünglichen Daten aber später wieder braucht, ist es doch viel schneller, wenn man die Daten in ein anderes Register rettet, als dass man es auf den Stack schreibt und später wieder davon lädt (Push Pop).
Die Situation hat sich durch die Verdoppelung mit x86-64 schon gebessert.
Ähnliche Themen
- Antworten
- 95
- Aufrufe
- 8K
- Antworten
- 14
- Aufrufe
- 944
- Antworten
- 102
- Aufrufe
- 11K
- Antworten
- 3
- Aufrufe
- 2K