App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?
- Ersteller UNRUHEHERD
- Erstellt am
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.224
- Renomée
- 535
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
Über die neuen Instructions gibt es fast keine Infos, ob sie genutzt werden oder nicht entscheiden aber die Entwickler und weniger Intel.Das steht dort aber so nicht da.
Und es ist doch nur eine weitere Zusammenfassung.
Was kann man eigentlich zu den neuen Instruktionen sagen? Was hat AMD damit vor; denn erfahrungsgemäß setzen die sich nicht durch, wenn Intel die nicht auch übernimmt.
Diktatur ist out!
Über den un-core Bereich weiß man bisher auch recht wenig, außer dem L3 Cache.
Alle Kerne eines Quad Cluster sollen auf alle Daten vom L3 zugreifen können, mit der selben Latenz.
OBrian
Moderation MBDB, ,
- Mitglied seit
- 16.10.2000
- Beiträge
- 17.033
- Renomée
- 267
- Standort
- NRW
- Prozessor
- Phenom II X4 940 BE, C2-Stepping (undervolted)
- Mainboard
- Gigabyte GA-MA69G-S3H (BIOS F7)
- Kühlung
- Noctua NH-U12F
- Speicher
- 4 GB DDR2-800 ADATA/OCZ
- Grafikprozessor
- Radeon HD 5850
- Display
- NEC MultiSync 24WMGX³
- SSD
- Samsung 840 Evo 256 GB
- HDD
- WD Caviar Green 2 TB (WD20EARX)
- Optisches Laufwerk
- Samsung SH-S183L
- Soundkarte
- Creative X-Fi EM mit YouP-PAX-Treibern, Headset: Sennheiser PC350
- Gehäuse
- Coolermaster Stacker, 120mm-Lüfter ersetzt durch Scythe S-Flex, zusätzliche Staubfilter
- Netzteil
- BeQuiet 500W PCGH-Edition
- Betriebssystem
- Windows 7 x64
- Webbrowser
- Firefox
- Verschiedenes
- Tastatur: Zowie Celeritas Caseking-Mod (weiße Tasten)
naja, der Marktanteil entscheidet das. Welcher Entwickler baut was ein, was nur ein paar Prozent der Kunden nutzen können? Irrelevant, ob das die technisch bessere Lösung ist. Für die Hardware extra kompilierte Kernel, Programme usw. spielen bei Großrechnern eine Rolle, aber sonst doch eher nicht.ob sie genutzt werden oder nicht entscheiden aber die Entwickler und weniger Intel.
Diktatur ist out!
Aber wenn es nicht Diefläche oder Leistung kostet, können solche Zusatzinstruktionen ja sozusagen kostenfrei untergebracht werden, selbst wenn sie nur in Großrechnern und von einigen ichkompiliermeinLinuxselbst-Nerds genutzt werden.
wär schlimm, wenn nicht, oder? Ist das denn bisher anders? Kommt der Kern 0 meines Deneb schneller an den L3 als Kern 3? Klar, der Cache ist bei Zen grundlegend anders organisiert, aber unnötige Rückschritte vermeidet man dabei doch sicherlich.Alle Kerne eines Quad Cluster sollen auf alle Daten vom L3 zugreifen können, mit der selben Latenz.
Oi!Olli
Grand Admiral Special
- Mitglied seit
- 24.12.2006
- Beiträge
- 16.409
- Renomée
- 780
- Mein Laptop
- HP Elitebook 8760W
- Prozessor
- Ryzen R7 5800X3D
- Mainboard
- Asus B 550 Strix F Wifi
- Kühlung
- Noctua NH-U12A
- Speicher
- 2x 32 GB Kingston FURY DIMM DDR4 3600
- Grafikprozessor
- XFX Speedster MERC 310 Radeon RX 7900 XT Black Edition
- Display
- Acer Predator XB253QGP
- SSD
- Samsung 980 Pro 2 TB, Samsung 970 Evo Plus 2 TB
- HDD
- Samsung TB, 2x2 TB 1x3 TB 1x8 TB
- Optisches Laufwerk
- GH-22NS50
- Soundkarte
- Soundblaster Recon 3d
- Gehäuse
- Raijintek Zofos Evo Silent
- Netzteil
- BeQuiet Straight Power 750 Platinum
- Betriebssystem
- Windows 10 Pro
- Webbrowser
- Opera 101 (der Browser aktualisiert sich natürlich immer)
- Verschiedenes
- X-Box One Gamepad, MS Sidewinder Joystick
Ich bin mal gespannt. Entweder ich hole mir im März dann einen Zen (falls ich meinen Nebenhjob noch hab) oder ein Z95 plus 4770K, die mir dann wohl hinterher geschmissen werden.
MIWA
Grand Admiral Special
- Mitglied seit
- 27.10.2015
- Beiträge
- 2.215
- Renomée
- 71
- BOINC-Statistiken
- Mein Laptop
- HP Zbook X2 G4
- Prozessor
- 2600X
- Mainboard
- AsRack X470
- Kühlung
- Eule aus Österreich ;)
- Speicher
- EUDIMM 2666mhz Dual Rank X8
- Grafikprozessor
- VII
- Display
- Phillips 55zoll
- SSD
- Intel DC3600P
- Betriebssystem
- Windoof und Linux
- Webbrowser
- Firerfox EDGE
Hier sind noch ein zwei Kleinkram drin
http://www.pcgameshardware.de/AMD-Zen-Codename-261795/Specials/Architektur-Ueberblick-1205599/
http://www.pcgameshardware.de/AMD-Zen-Codename-261795/Specials/Architektur-Ueberblick-1205599/
cyrusNGC_224
Grand Admiral Special
- Mitglied seit
- 01.05.2014
- Beiträge
- 5.924
- Renomée
- 117
- Aktuelle Projekte
- POGS, Asteroids, Milkyway, SETI, Einstein, Enigma, Constellation, Cosmology
- Lieblingsprojekt
- POGS, Asteroids, Milkyway
- Meine Systeme
- X6 PII 1090T, A10-7850K, 6x Athlon 5350, i7-3632QM, C2D 6400, AMD X4 PII 810, 6x Odroid U3
- BOINC-Statistiken
Und bei WCCFtech vermutet jemand mehr Parallelen von ZENs HT zu dem des Power8 als zu dem von Intel:
We'll have to wait for benchmarks, but I'm growing ever more suspicious that Zen's SMT implementation is more like Power8's than anything Intel's produced so far. Intel's approach has been to allow a second thread to use unused CPU resources, but doesn't really over-provision those resources (a single thread can very nearly saturate the whole CPU). On Power8, they can scale up to 8 threads per core (Zen will only do 2), but they make that viable by doubling down on key CPU resources in the first place (Instruction Cache, rename registers, etc.). The end result is that the second SMT thread on Intel increases overall performance by around 15-25%, but on Power8 the second SMT thread can increase overall performance by around 60% in some workloads. In Layman's terms, Power8's 'hyperthreads' are more useful than Intel's.
AMD haven't talked about rename registers yet, but they have revealed that the instruction cache is 64KB per core; perhaps not-so-coincidentally, that's double the size of Skylake's instruction cache, and the same size as Power8's. The L1 Data cache is only 32K in all of these processors, but its rather odd in processor design to have your instruction cache be twice the size of your L1 data cache -- unless you have a good reason. There's only two reasons I can think of -- either that second thread chews through a lot more instructions than in competing SMT designs, or possibly the uOp Cache can spill to L1. Looking at the slide from HotChips that shows which CPU resources are exclusive, competitively shared, or arithmetically arbitrated, has me leaning toward the former, though they might not have overprovisioned CPU resources enough to match Power8 fully. There were also rumors months back about Zen doing some really novel things with SMT, which would seem to back that up.
The implication of that would be that Zen could run at a lower clockspeed than Intel's current Broadwell DE but still match in overall threaded performance (but perhaps giving up 10-15% single-threaded performance (not clock-normalized)). For the mainstream, they could release a quad-core CPU at similar clocks to Skylake, and outperform it in threaded workloads. In gaming workloads, since current consoles make 6-7 threads available to games, a quad-core Zen with 4 hyper-threads giving ~60% additional performance would give a lot bettter performance than a quad-core i7 with 4 hyper-threads giving ~20% additional performance. In fact, that Zen would would have a throughput comparable to 6-7 dedicated cores.
We won't know until someone does an architecture deep-dive or we have benches showing SMT gains much larger than intel's. But its looking increasingly likely from what I see.
NEO83
Grand Admiral Special
- Mitglied seit
- 19.01.2016
- Beiträge
- 3.898
- Renomée
- 429
- Standort
- Wilhelmshaven
- BOINC-Statistiken
- Mein Desktopsystem
- Kraftprotz
- Mein Laptop
- ASUS TUF A17 @R9 7940HS @RTX4070
- Prozessor
- AMD R7 7800X3D
- Mainboard
- GIGABYTE B650E AORUS Master
- Kühlung
- Noctua NH-D12L
- Speicher
- Corsair Vengeance RGB Kit 32GB, DDR5-6000, CL30-36-36-76
- Grafikprozessor
- PNY GeForce RTX 4080 XLR8 Gaming Verto Epic-X
- Display
- MSI MPG Artymis 273CQRDE @WQHD @165Hz
- SSD
- WD_BLACK SN850X 1TB, WD_BLACK SN850X 2TB
- Optisches Laufwerk
- USB BD-Brenner
- Soundkarte
- Onboard
- Gehäuse
- Fractal Design Meshify 2 XL
- Netzteil
- ASUS ROG Loki 1000W Platinum SFX-L
- Tastatur
- Logitech G815
- Maus
- Logitech G502 SE Lightspeed
- Betriebssystem
- Windows 11 64Bit
- Webbrowser
- FireFox
- Internetanbindung
- ▼1,15GBit ▲56MBit
Naja die Vermutung klingt ( mein Englisch ist vieles aber nicht perfekt ) an sich wirklich sehr gut, aber im Moment ist leider alles nur eine Vermutung bzw heiße Luft ... obwohl ich es wirklich für AMD hoffe das ZEN ein Erfolg wird ... ich werde ZEN auf jeden fall für einen meiner PCs kaufen ... ob für die Daddelkiste muss leider die Performance entscheiden
Opteron
Redaktion
☆☆☆☆☆☆
Ich würde da nun nicht zw. Intel oder IBM-Architekturen vergleichen. Simpler Fakt ist, viel hilft viel und AMDs L1I-Cache ist größer, ergo besser als Intels.
Dass der L1I-Cache wichtig ist, lernte AMD schon bei Bulldozers CMT, bekanntlich wurde der ja ab Steamroller gleich von 64 auf 96kB vergrößert, das war nicht wenig und einen solchen Änderungsaufwand im Herzen des Designs treibt man nicht ohne sehr triftige Gründe.
Da kann man dann einfach schlussfolgern, dass das eine verdammt wichtige Größe ist und 32 kB L1I für 2 Threads somit definitiv zu klein sein dürften, egal ob 2xCMT oder 2xSMT. 64 kB dürfte für SMT statt CMT dann ausreichend sein, denn 96 wird man nur für CMT brauchen, wo es ja auch noch eigene L1D-Caches gibt. Bei SMT wird dagegen der gemeinsam benutzte L1D-Cache etwas bremsen.
Dass der L1I-Cache wichtig ist, lernte AMD schon bei Bulldozers CMT, bekanntlich wurde der ja ab Steamroller gleich von 64 auf 96kB vergrößert, das war nicht wenig und einen solchen Änderungsaufwand im Herzen des Designs treibt man nicht ohne sehr triftige Gründe.
Da kann man dann einfach schlussfolgern, dass das eine verdammt wichtige Größe ist und 32 kB L1I für 2 Threads somit definitiv zu klein sein dürften, egal ob 2xCMT oder 2xSMT. 64 kB dürfte für SMT statt CMT dann ausreichend sein, denn 96 wird man nur für CMT brauchen, wo es ja auch noch eigene L1D-Caches gibt. Bei SMT wird dagegen der gemeinsam benutzte L1D-Cache etwas bremsen.
Locuza
Commodore Special
- Mitglied seit
- 03.03.2011
- Beiträge
- 351
- Renomée
- 3
Die Fetch-Queue beim Power 8 beinhaltet egal, ob ein oder zwei Threads 64 Instruktionen, erst ab SMT4 wird hier pro Thread unterteilt.
Darüber hinaus hat Power 8 die Ausführungseinheiten praktisch in zwei Hälften partitioniert, mit zwei Unified Issue Queues.
Ein Thread verwendet beide, bei zwei kann man aber jedem Thread exklusiv Ressourcen zusichern:
http://www.anandtech.com/show/10435/assessing-ibms-power8-part-1/4
Bei Zen dagegen gibt AMD an, dass alle Ressourcen auch im 1T Mode zur Verfügung stehen:
https://pics.computerbase.de/7/4/1/5/4/15-1080.2713563378.png
Ich würde mich da viel mehr an Intels Ergebnisse orientieren, als die von Power 8.
Power 8 hat darüber hinaus einen 64KB großen L1D-Cache (8-Way) (Intel 32 KB (8-Way)) und wie Intel nur einen 32KB großen L1I-Cache (8-Way).
Zen dagegen genau andersherum, 32 KB L1D-Cache (8-Way) und 64KB L1I-Cache (4-Way).
Die ISA ist natürlich eine andere.
Darüber hinaus hat Power 8 die Ausführungseinheiten praktisch in zwei Hälften partitioniert, mit zwei Unified Issue Queues.
Ein Thread verwendet beide, bei zwei kann man aber jedem Thread exklusiv Ressourcen zusichern:
http://www.anandtech.com/show/10435/assessing-ibms-power8-part-1/4
Bei Zen dagegen gibt AMD an, dass alle Ressourcen auch im 1T Mode zur Verfügung stehen:
https://pics.computerbase.de/7/4/1/5/4/15-1080.2713563378.png
Ich würde mich da viel mehr an Intels Ergebnisse orientieren, als die von Power 8.
Power 8 hat darüber hinaus einen 64KB großen L1D-Cache (8-Way) (Intel 32 KB (8-Way)) und wie Intel nur einen 32KB großen L1I-Cache (8-Way).
Zen dagegen genau andersherum, 32 KB L1D-Cache (8-Way) und 64KB L1I-Cache (4-Way).
Die ISA ist natürlich eine andere.
Dresdenboy
Redaktion
☆☆☆☆☆☆
Weiß eigentlich jemand, wie derzeit die Stimmung auf den Gesichtern der Intel-Architekten ist?
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.224
- Renomée
- 535
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
Aus der Sicht hast du vollkommen recht, als Entwickler will man so viel wie möglich Nutzer(innen) erreichen.naja, der Marktanteil entscheidet das. Welcher Entwickler baut was ein, was nur ein paar Prozent der Kunden nutzen können? Irrelevant, ob das die technisch bessere Lösung ist. Für die Hardware extra kompilierte Kernel, Programme usw. spielen bei Großrechnern eine Rolle, aber sonst doch eher nicht.
Aber wenn es nicht Diefläche oder Leistung kostet, können solche Zusatzinstruktionen ja sozusagen kostenfrei untergebracht werden, selbst wenn sie nur in Großrechnern und von einigen ichkompiliermeinLinuxselbst-Nerds genutzt werden.
wär schlimm, wenn nicht, oder? Ist das denn bisher anders? Kommt der Kern 0 meines Deneb schneller an den L3 als Kern 3? Klar, der Cache ist bei Zen grundlegend anders organisiert, aber unnötige Rückschritte vermeidet man dabei doch sicherlich.
Ist doch kein Problem durch die CPUID Abfragung, beim Programmstart nutzen um entsprechende Zeilen vom Coder zu nutzen.
Der ZEN Cluster hat aber nicht 1x 8MB wie die Piledriver sondern 4x 2MB, das ist in Verbindung mit PowerGating doch sehr beeindruckend!
cyrusNGC_224
Grand Admiral Special
- Mitglied seit
- 01.05.2014
- Beiträge
- 5.924
- Renomée
- 117
- Aktuelle Projekte
- POGS, Asteroids, Milkyway, SETI, Einstein, Enigma, Constellation, Cosmology
- Lieblingsprojekt
- POGS, Asteroids, Milkyway
- Meine Systeme
- X6 PII 1090T, A10-7850K, 6x Athlon 5350, i7-3632QM, C2D 6400, AMD X4 PII 810, 6x Odroid U3
- BOINC-Statistiken
Na wenn du das nicht weißt...Weiß eigentlich jemand, wie derzeit die Stimmung auf den Gesichtern der Intel-Architekten ist?
Wäre schon mal interessant, wie Insider in konkurrierenden oder nur anderen Bereichen/Firmen auf so was schauen.
MacroWelle
Captain Special
- Mitglied seit
- 15.02.2008
- Beiträge
- 236
- Renomée
- 1
Es ist schon viel gewonnen, wenn die meisten Compiler es unterstützten und (halb)automatisch ins Kompilat einbauen. Die Frage ist halt auch, ob es eine direkte Konkurrenz von Intel gibt/geben wird, so wie bei AVX.naja, der Marktanteil entscheidet das. Welcher Entwickler baut was ein, was nur ein paar Prozent der Kunden nutzen können?
Bei PCGH hats übrigens eine Folie, wo die Befehle beschrieben werden.
Das hängt u. a. vom Weg auf dem Chip sowie der Anbindung des Speichers ab. Meine mich zu erinnern, dass bei IBM die Kerne teilweise den physisch nahen L3-Cache priorisiert genutzt haben. Also stellt sich bei einem Konstrukt wie bei Zen die Frage, ob einzelne Kerne auf "ihren" L3-Cache (siehe DIE-Schaubild) schneller zugreifen können.wär schlimm, wenn nicht, oder? Ist das denn bisher anders? Kommt der Kern 0 meines Deneb schneller an den L3 als Kern 3? Klar, der Cache ist bei Zen grundlegend anders organisiert, aber unnötige Rückschritte vermeidet man dabei doch sicherlich.
Laut dem Bereicht bei PCGH findet die Kommunikation zwischen den CCX über einen internen Bus statt, d. h. es ist nach außen von Vorteil, wenn es egal ist, welche CPU mit welchem Teil des L3 arbeitet.
Opteron
Redaktion
☆☆☆☆☆☆
Der ZEN Cluster hat aber nicht 1x 8MB wie die Piledriver sondern 4x 2MB, das ist in Verbindung mit PowerGating doch sehr beeindruckend!
Das war bei Orochi aber auch so, da gabs 4x2 MB Segmente, die Bandbreite war da eigentlich nicht so schlecht, wenn ich mich recht erinnere, nur die Latenz war halt ur-grottig
Zen scheint nun 8x1 MB Segmente zu haben, auch nicht schlecht
--- Update ---
Die Fetch-Queue beim Power 8 beinhaltet egal, ob ein oder zwei Threads 64 Instruktionen, erst ab SMT4 wird hier pro Thread unterteilt.
Darüber hinaus hat Power 8 die Ausführungseinheiten praktisch in zwei Hälften partitioniert, mit zwei Unified Issue Queues.
Ein Thread verwendet beide, bei zwei kann man aber jedem Thread exklusiv Ressourcen zusichern:
Ich stimme Dir eigentlich zu, aber bei dem Punkt muss man auch an AMDs Trennung in INT+FP erinnern. Das ist quasi auch eine Auftrennung wenn auch nicht per Thread, aber da bei AMD doppelt soviele Ports wie bei Intel zur Verfügung stehen ist es von vorne herein klar, dass sich 2 Threads bei so einer Architektur nur halb so oft auf die Füße treten als bei Intel - zumindest wenn es sonst keine anderen Flaschenhälse gibt.
Der SMT-Speedup dürfte also definitv besser ausfallen. Wer unbedingt will kann das dann notfalls mit Power8 vergleichen, es geht gaaanz grob in die gleiche Richtung, ich würde es aber nicht machen, da es noch viel zu viel Unterschiede gibt und AMD näher an Intel liegt - mit dem Unterschied bei den Ports.
Die Preisfrage ist wieviel AMD drauflegen kann. Bei Intels 30%-SMT-Speedup hieß es mal, dass das allein nur wenig mehr als das Ausnutzen des Leerlaufs aufgrund der Speicherwartezeiten eines Threads war. Irgendwas zwischen 40-50% wäre also nett, CMT bei Bulldozer hatte schon 60% aufwärts, das wird man wohl nicht erreichen, da bräuchte es vermutlich mind. eine weitere Store-Unit und mehr Cache-Ports.
Edit:
Wer eine andere Architektur zum Vergleiche haben will kann die hier nehmen:
Dresdenboy
Redaktion
☆☆☆☆☆☆
Die Fetch-Queue beim Power 8 beinhaltet egal, ob ein oder zwei Threads 64 Instruktionen, erst ab SMT4 wird hier pro Thread unterteilt.
Darüber hinaus hat Power 8 die Ausführungseinheiten praktisch in zwei Hälften partitioniert, mit zwei Unified Issue Queues.
Ein Thread verwendet beide, bei zwei kann man aber jedem Thread exklusiv Ressourcen zusichern:
http://www.anandtech.com/show/10435/assessing-ibms-power8-part-1/4
Bei Zen dagegen gibt AMD an, dass alle Ressourcen auch im 1T Mode zur Verfügung stehen:
https://pics.computerbase.de/7/4/1/5/4/15-1080.2713563378.png
Mich würde es nicht wundern wenn sich in zukünftigem CPUs Teile der Bulldozerarchitektur finden würden, d.h. dedizierte Einheiten für einzelne Threads einer CPU mit SMT.
Dresdenboy
Redaktion
☆☆☆☆☆☆
Mich würde es nicht wundern wenn sich in zukünftigem CPUs Teile der Bulldozerarchitektur finden würden, d.h. dedizierte Einheiten für einzelne Threads einer CPU mit SMT.
In einem neueren Patent hatte AMD zwei Front Ends...
Fab8
Commander
- Mitglied seit
- 15.07.2012
- Beiträge
- 187
- Renomée
- 2
Sehr schoen, endlich ein wenig Hot Chips 2016 Feeling Interessant welche Fragen diesmal von Intel im Anschluss kamen
Dresdenboy
Redaktion
☆☆☆☆☆☆
Sehr schoen, endlich ein wenig Hot Chips 2016 Feeling Interessant welche Fragen diesmal von Intel im Anschluss kamen
Könnte man mal herausfinden. Der Operator meinte auch mal zu Cache-Latenzfragen, dass er verstünde, wo sie herkommen.
Ein wenig Lesestoff den ich vor ein paar Tagen gefunden habe:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.725.8642&rep=rep1&type=pdf
http://www.eecg.toronto.edu/~enright/micro14-interposer.pdf
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.725.8642&rep=rep1&type=pdf
http://www.eecg.toronto.edu/~enright/micro14-interposer.pdf
Dresdenboy
Redaktion
☆☆☆☆☆☆
Hehe, den kenne ich.Ein wenig Lesestoff den ich vor ein paar Tagen gefunden habe:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.725.8642&rep=rep1&type=pdf
http://www.eecg.toronto.edu/~enright/micro14-interposer.pdf
Vielleicht noch ganz interessant:
http://www.anandtech.com/show/10591...art-2-extracting-instructionlevel-parallelism
http://www.anandtech.com/show/10591...art-2-extracting-instructionlevel-parallelism
MacroWelle
Captain Special
- Mitglied seit
- 15.02.2008
- Beiträge
- 236
- Renomée
- 1
Kleine Korrektur an dieser Stelle. Wenn man sich den Hotchips-Vortrag auf Youtube anschaut fällt auf, dass der AMD-Ingenieur von der gleichen durchschnittlichen Zugriffsgeschwindigkeit jedes Kerns eines CCX spricht. D. h. es kann sein, dass ein bestimmter Kern auf einen Teil des L3 schneller zugreifen kann als auf den Rest. Vmtl. also auf die näherliegenden Teile des L3.Alle Kerne eines Quad Cluster sollen auf alle Daten vom L3 zugreifen können, mit der selben Latenz.
Opteron
Redaktion
☆☆☆☆☆☆
Jupp, kann ich bestätigen, hat der Vortragende von der Hotchips so gesagt (in einer anderen Version des Vortrags für die Presse).Kleine Korrektur an dieser Stelle. Wenn man sich den Hotchips-Vortrag auf Youtube anschaut fällt auf, dass der AMD-Ingenieur von der gleichen durchschnittlichen Zugriffsgeschwindigkeit jedes Kerns eines CCX spricht. D. h. es kann sein, dass ein bestimmter Kern auf einen Teil des L3 schneller zugreifen kann als auf den Rest. Vmtl. also auf die näherliegenden Teile des L3.
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.224
- Renomée
- 535
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
Danke!Kleine Korrektur an dieser Stelle. Wenn man sich den Hotchips-Vortrag auf Youtube anschaut fällt auf, dass der AMD-Ingenieur von der gleichen durchschnittlichen Zugriffsgeschwindigkeit jedes Kerns eines CCX spricht. D. h. es kann sein, dass ein bestimmter Kern auf einen Teil des L3 schneller zugreifen kann als auf den Rest. Vmtl. also auf die näherliegenden Teile des L3.
Wenn die höchste (schlechteste) Latenz besser wie beim FX ist, wäre das kein Problem.
Nur die Frage ob ein Software Entwickler dieses know how nutzen kann und bestimmte Teile vom L3 anzusprechen?
Stell ich mir zu kompliziert vor für Handarbeit, könnte das evt. der OS Sheduler übernehmen?
Dresdenboy
Redaktion
☆☆☆☆☆☆
Bis auf Cache-Blocking wird für solche Dinge eigtl. nicht optimiert. Zuviel Aufwand für wenig Nutzen, da hier die Prefetcher vorarbeiten.Danke!
Wenn die höchste (schlechteste) Latenz besser wie beim FX ist, wäre das kein Problem.
Nur die Frage ob ein Software Entwickler dieses know how nutzen kann und bestimmte Teile vom L3 anzusprechen?
Stell ich mir zu kompliziert vor für Handarbeit, könnte das evt. der OS Sheduler übernehmen?
George Woltman hat für Prime95/GWNUM auf P4 im Assemblercode extra Dummy-Ladebefehle gehabt, um die TLBs schonmal vorzuladen - u. diese dann indirekt aktiv gemanaged für optimale L1-Latenzen.
Ähnliche Themen
- Antworten
- 91
- Aufrufe
- 8K
- Antworten
- 14
- Aufrufe
- 933
- Antworten
- 102
- Aufrufe
- 11K
- Antworten
- 3
- Aufrufe
- 2K