App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?
- Ersteller UNRUHEHERD
- Erstellt am
genervt
Admiral Special
- Mitglied seit
- 27.07.2006
- Beiträge
- 1.135
- Renomée
- 10
- Standort
- Berlin
- Aktuelle Projekte
- NumberFields
- BOINC-Statistiken
- Mein Laptop
- Leonvo E145
- Prozessor
- XEON 1230v2
- Mainboard
- H61M-K [Ersatz]
- Kühlung
- Brocken
- Speicher
- 16 GB Corsair
- Grafikprozessor
- RX480 8GB
- Display
- BenQ BL3200PT - 30 Zoll - 1440p
- SSD
- Crucial MX100, BX200
- HDD
- 1x 750GB 1x 3 TB
- Optisches Laufwerk
- LG BH10LS30
- Soundkarte
- Xonar DX
- Gehäuse
- Fractal
- Netzteil
- BeQuiet
- Betriebssystem
- Win7 64bit, Win10
- Webbrowser
- Firefox
- Verschiedenes
- im Umbau
TSMC statt GloFo wäre ein Paukenschlag. Wie lange ist AMD eigentlich noch an GloFo volumenmäßig gebunden?
TSMC statt GloFo wäre ein Paukenschlag. Wie lange ist AMD eigentlich noch an GloFo volumenmäßig gebunden?
Das ist schon vor 2 Jahren ausgelaufen mit der Abnahmeverpflichtung, oder alternativen Strafzahlung. In den aktuellen Abkommen gibt es das nach meinem Kenntnisstand nicht mehr.
Ich denke die Kapazitäten bei Samsung sind ziemlich knapp was 14 Finfet angeht. Da läuft ja neben samsung selbst noch apple, bald qualcomm und wohl noch anderes vom band. Mit TSMC hatte AMD jedenfalls bisher keine Probleme. Bei Glofo kam seit 45nm nichts wirklich vollends überzeugendes mehr. vor allem 28nm, also ab umszellung auf Bulk ging ja gar nicht. Da haben sie 3 jahre lang dran rumgewurschtelt.
Opteron
Redaktion
☆☆☆☆☆☆
Quelle? In den ersten Verträgen stand was bis 2022 oder so, glaube kaum, dass sich das geändert hat.Das ist schon vor 2 Jahren ausgelaufen mit der Abnahmeverpflichtung, oder alternativen Strafzahlung. In den aktuellen Abkommen gibt es das nach meinem Kenntnisstand nicht mehr.
Außerdem müsste man für TSMC erstmal anpassen und danach auch noch ne Maske gießen, d.h. Zen wäre automatisch mind. ein halbes Jahr zu spät. 2016 würde garantiert nicht mehr reichen.
Wäre jetzt höchstens die Frage, wie zeitig AMD das Problem GF auf dem Radar hatte. Wenn das schon vor ca. nem Jahr bekannt war, ok.
@Opteron
Kommt auch darauf an, wie man bei AMD geplant hat. Wenn man clever ist (und aus der Vergangenheit was gelernt hat), hat man frühzeitig auch in eine mögliche Ausweichstrategie investiert, um diesmal nicht wieder auf dem falschen Fuß erwischt zu werden.
Außerdem wäre es schlau, die IP auch für TSMC fertig zu basteln, damit man Kunden für Semicustom werben kann.
Kommt auch darauf an, wie man bei AMD geplant hat. Wenn man clever ist (und aus der Vergangenheit was gelernt hat), hat man frühzeitig auch in eine mögliche Ausweichstrategie investiert, um diesmal nicht wieder auf dem falschen Fuß erwischt zu werden.
Außerdem wäre es schlau, die IP auch für TSMC fertig zu basteln, damit man Kunden für Semicustom werben kann.
Effe
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 17.02.2011
- Beiträge
- 3.184
- Renomée
- 164
- Standort
- Im Havelland
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- Rosetta & TN-Grid + F&H ->>> FCK CVD19 !
- Lieblingsprojekt
- Einstein@Home
- Meine Systeme
- 3700X+2080+1650; 2400G+290X+560D+Vega11; 2200G+ 5700XT+Vega8; i7860+R7950; i73930K+1660+Vega56+750ti
- BOINC-Statistiken
- Folding@Home-Statistiken
- Prozessor
- RyZen R7-3700X; RyZen 5 2400G
- Mainboard
- ASUS X370 Prime Pro; MSI B350M Mortar
- Kühlung
- Alpenföhn Brocken 2; Alpenföhn Wasser
- Speicher
- 32GB Crucial Ballistix Sport CL16 3200 MHz ;GSkill F4-3200C14D-16GTZ;
- Grafikprozessor
- MSI Radeon RX 5700 XT Gaming X; Vega 11 + Inno3D GTX1660;
- Display
- HP Pavilion 32 HDR; HP Pavilion 32
- SSD
- Crucial P1 1TB NVMe + BX500 960GB; Sandisk Plus 480GB
- HDD
- WD Blue 1TB; WD Purple 3TB
- Soundkarte
- X-Fi Titanium Fatal1ty; X-Fi Titanium
- Gehäuse
- Chieftec Smart CH-09B-U3; Sharkoon CA-M silber
- Netzteil
- Aerocool P7 650W; SST-SX500-LG
- Betriebssystem
- Win10 64bit
- Webbrowser
- Firefox X,; Chrome 10000
Vielleicht hat Mr. Read ja doch noch sein Vermächtnis in Form von Doppelplanung bei beiden Chipbäckern. [/Speku]
genervt
Admiral Special
- Mitglied seit
- 27.07.2006
- Beiträge
- 1.135
- Renomée
- 10
- Standort
- Berlin
- Aktuelle Projekte
- NumberFields
- BOINC-Statistiken
- Mein Laptop
- Leonvo E145
- Prozessor
- XEON 1230v2
- Mainboard
- H61M-K [Ersatz]
- Kühlung
- Brocken
- Speicher
- 16 GB Corsair
- Grafikprozessor
- RX480 8GB
- Display
- BenQ BL3200PT - 30 Zoll - 1440p
- SSD
- Crucial MX100, BX200
- HDD
- 1x 750GB 1x 3 TB
- Optisches Laufwerk
- LG BH10LS30
- Soundkarte
- Xonar DX
- Gehäuse
- Fractal
- Netzteil
- BeQuiet
- Betriebssystem
- Win7 64bit, Win10
- Webbrowser
- Firefox
- Verschiedenes
- im Umbau
@Opteron
Kommt auch darauf an, wie man bei AMD geplant hat. Wenn man clever ist (und aus der Vergangenheit was gelernt hat), hat man frühzeitig auch in eine mögliche Ausweichstrategie investiert, um diesmal nicht wieder auf dem falschen Fuß erwischt zu werden.
Außerdem wäre es schlau, die IP auch für TSMC fertig zu basteln, damit man Kunden für Semicustom werben kann.
Dir ist aber schon klar, dass das ein doppelter Aufwand ist? Die Schaltkreise müssen ja an den Prozess angepasst werden, ob AMD dafür gerade die Ressourcen hat...
Ich denke die Kapazitäten bei Samsung sind ziemlich knapp was 14 Finfet angeht. Da läuft ja neben samsung selbst noch apple, bald qualcomm und wohl noch anderes vom band. Mit TSMC hatte AMD jedenfalls bisher keine Probleme. Bei Glofo kam seit 45nm nichts wirklich vollends überzeugendes mehr. vor allem 28nm, also ab umszellung auf Bulk ging ja gar nicht. Da haben sie 3 jahre lang dran rumgewurschtelt.
Samsung wird seine Kapazitäten doch sicherlich ausbauen, da gab es doch eine Folie:
Fab8
Commander
- Mitglied seit
- 15.07.2012
- Beiträge
- 187
- Renomée
- 2
Samsung hat sicherlich bereits viel investiert, aber primaer um die eigenen Produkte mit 14nm chips zu versorgen und dann als Apple Partner noch deren Chips. GF hat wie bereits bekannt den 14nm Prozess von Samsung lizensiert, warum der nun bei GF nebest dem zugekauften IBM KnowHow in der Fab8 nicht gut funktionieren soll ist ein Raetsel.Samsung wird seine Kapazitäten doch sicherlich ausbauen, da gab es doch eine Folie:
Golem spekuliert das der A9 auch bei GF gebaut wird: http://www.golem.de/news/auftragsfe...hst-die-14-nm-lpp-produktion-1509-116547.html
Dresdenboy
Redaktion
☆☆☆☆☆☆
Dieses Bild ist unbrauchbar, da man darauf nichts erkennen kann.
Dresdenboy
Redaktion
☆☆☆☆☆☆
Im Artikel konnte man mehr sehen. Hier ist das größere Bild:Dieses Bild ist unbrauchbar, da man darauf nichts erkennen kann.
bschicht86
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 14.12.2006
- Beiträge
- 4.249
- Renomée
- 228
- BOINC-Statistiken
- Prozessor
- 2950X
- Mainboard
- X399 Taichi
- Kühlung
- Heatkiller IV Pure Chopper
- Speicher
- 64GB 3466 CL16
- Grafikprozessor
- 2x Vega 64 @Heatkiller
- Display
- Asus VG248QE
- SSD
- PM981, SM951, ein paar MX500 (~5,3TB)
- HDD
- -
- Optisches Laufwerk
- 1x BH16NS55 mit UHD-BD-Mod
- Soundkarte
- Audigy X-Fi Titanium Fatal1ty Pro
- Gehäuse
- Chieftec
- Netzteil
- Antec HCP-850 Platinum
- Betriebssystem
- Win7 x64, Win10 x64
- Webbrowser
- Firefox
- Verschiedenes
- LS120 mit umgebastelten USB -> IDE (Format wie die gängigen SATA -> IDE)
Ob die 4x Decode auf 4-fach SMT hindeuten würden? Wenn ja, wär die FPU ja wieder nach dem Bulli-Prinzip. Je Kern nur 128bit.
Ich vermute mal: Das beste/optimale aus SMT und CMT Bei Int-lastigen und bis zu 128bit FPU kann sich ein Zen-Kern um 4 Threads kümmern, soll die FPU breiter genutzt werden, sind es eben nur noch 2 Threads.
Oder man mischt 1x 256 FPU mit 2x 128 FPU
--- Update ---
Am interessantesten wird allerdings für mich sein, wie Zen mit der Außenwelt kommuniziert (PCI-E-Lanes, RAM-Kanäle, SATA, USB, etc.)
Ich vermute mal: Das beste/optimale aus SMT und CMT Bei Int-lastigen und bis zu 128bit FPU kann sich ein Zen-Kern um 4 Threads kümmern, soll die FPU breiter genutzt werden, sind es eben nur noch 2 Threads.
Oder man mischt 1x 256 FPU mit 2x 128 FPU
--- Update ---
Am interessantesten wird allerdings für mich sein, wie Zen mit der Außenwelt kommuniziert (PCI-E-Lanes, RAM-Kanäle, SATA, USB, etc.)
Zuletzt bearbeitet:
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.335
- Renomée
- 1.973
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Das hat aber dann nichts mehr mit den Kernen zu tuen sonder sind das letztendliche Produkt.
Ich tippe mal darauf das man im Desktop Bereich auf einen integrierten, minimalen Chipsatz setzt (siehe Kabini) und den Rest per Zusatzchip zur Verfügung stellt.
Da der integrierte Teil im Multi CPU Part recht Nutzlos wäre tippe ich bei diesen Produkten auf eine klassische Chipsatz Lösung. Beim Arbeitsspeicher tippe ich Zeitpunkt bedingt auf DDR4 Speicher und hoffe im APU Bereich auf eine zusätzliche HBM Lösung.
Ich tippe mal darauf das man im Desktop Bereich auf einen integrierten, minimalen Chipsatz setzt (siehe Kabini) und den Rest per Zusatzchip zur Verfügung stellt.
Da der integrierte Teil im Multi CPU Part recht Nutzlos wäre tippe ich bei diesen Produkten auf eine klassische Chipsatz Lösung. Beim Arbeitsspeicher tippe ich Zeitpunkt bedingt auf DDR4 Speicher und hoffe im APU Bereich auf eine zusätzliche HBM Lösung.
cyrusNGC_224
Grand Admiral Special
- Mitglied seit
- 01.05.2014
- Beiträge
- 5.924
- Renomée
- 117
- Aktuelle Projekte
- POGS, Asteroids, Milkyway, SETI, Einstein, Enigma, Constellation, Cosmology
- Lieblingsprojekt
- POGS, Asteroids, Milkyway
- Meine Systeme
- X6 PII 1090T, A10-7850K, 6x Athlon 5350, i7-3632QM, C2D 6400, AMD X4 PII 810, 6x Odroid U3
- BOINC-Statistiken
Bedeutet das nun, dass ZEN AVX2 nicht so performant wie Haswell pro Thread abarbeiten kann?
Denn da hätte AMD doch Nachholbedarf gehabt.
Denn da hätte AMD doch Nachholbedarf gehabt.
Opteron
Redaktion
☆☆☆☆☆☆
Bedeutet das nun, dass ZEN AVX2 nicht so performant wie Haswell pro Thread abarbeiten kann?
Denn da hätte AMD doch Nachholbedarf gehabt.
Vollkommen wurst, wieviel AVX256-Programme gibts denn? Der Markt ist im Vergleich zu SSE128-Programmen klein, aber die profitieren - im Gegensatz zu Intel - von dem Design.
Das haben wir uns im Forum so schon gewünscht, mit SMT macht das ziemlich viel Sinn
Bulldozer kann pro Takt:
eine 256bit FMA Instruktion
zwei 128bit FMA Instruktionen
zwei 128 bit FMUL/FMADD Instruktionen
Intel kann pro Takt:
zwei 256bit FMA Instruktion
zwei 128bit FMA Instruktionen
zwei 128 bit FMUL/FMADD Instruktionen
Zen könnte:
ein oder zwei 256bit FMA Instruktion (nicht ganz sicher, müsst ich mal nochmal beim Bridge-Design nachlesen, eventuell bräuchte es für einen 256bit Instruktion eine "Quad-µOp", die es so bisher noch nicht gab)
zwei 128bit FMA Instruktionen
vier 128 bit FMUL/FMADD (je 2) Instruktionen (also alles vor AVX / bis SSE4.2)Für alten Code ist das also besser, da jeder SMT-Thread eine - im Vergleich zu früher - quasi vollwertige FPU exklusiv zur Verfügung hat.
Im nächsten Ausbauschritt (10nm) kann man das Design dann schön auf 4x256bit verdoppeln.
SMT4 könnte man machen, aber die 4 Decoder braucht man eher um 2 Doubles pro Takt generieren zu können. Das ist der Preis für die Flexibilität der FPU, man muss mehr in den Decoder investieren. Aber wenn man SMT2 hat, rentieren sich die Decoder eben auch für die 2 SMT-Threads pro Kern, das passt gut zusammen. BD hatte halt "leider" keine Bridge-FPU sondern richtige FMA-Pipes, d.h. der Maximaldurchsatz waren 2 128bit Instruktionen, egal ob FMA/FMUL/FADD), da rentierte sich ein breiter Decoder nicht so sehr, was dann vielleicht auch schlecht für die INT-Cluster war (die waren ja bei einer IPC von ~0,9 oft unterfordert).
Bisschen wenig wären die 2 Load/Store Units, Intel hat mit Haswell gerade erst ein 3. Store-Unit nachgelegt, aber naja superwichtig ists wohl nicht und AMD kann das später auch noch nachreichen.
Apropos: BDs AGLUs sind damit Geschichte ... das Design orientiert sich damit eher an den Katzenkernen (die hatten je eine Load oder Store Unit) bzw. auch Intel.
Ansonsten: Wenn ich das richtig sehe werden alle x87-Instruktionen nur noch als "Vector" also mit langsamen Microcode ausgeführt .. naja macht sicher nichts, x87 ist nun wirklich uralt. Zen zielt auf den Massenmarkt und dort gibts größtenteils SSE128-Code. Ist schon in Ordnung so.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Eher nicht. Bulldozer hatte auch 4x Decode und es waren trotzdem nur 2 Threads pro Modul. Ich denke auch Zen wird maximal 2 Threads pro Kern unterstützen.Ob die 4x Decode auf 4-fach SMT hindeuten würden?
Nein, je Kern 2x 256-bit. Ist ja jetzt nur noch ein Kern, unabhängig von SMT.Wenn ja, wär die FPU ja wieder nach dem Bulli-Prinzip. Je Kern nur 128bit.
Doch, bei 256-bit FADD und FMUL schon. Bei 256-bit FMA wäre es allerdings nur der halbe Durchsatz wie schon bei Bulldozer. Ich persönlich sehe das im Moment allerdings nicht so kritisch, wenn es dabei hilft, dass Zen schön sparsam bleibt. Haswell + Nachfolger sind bei 256-bit Workloads ja ganz schöne Hitzköpfe. Und FP Gefechte werden in Zukunft sowieso mehr und mehr mit GPUs gewonnen, Stichwort OpenCL, HSA, etc.Bedeutet das nun, dass ZEN AVX2 nicht so performant wie Haswell pro Thread abarbeiten kann?
@Matthias
Danke für die Info. Schaut auf jeden Fall sehr vielversprechend aus und in etwa so, wie ich das erwartet hatte. Finde es auch sehr gut, dass man bei der FPU scheinbar den Fokus wieder mehr auf FADD und FMUL legt. Das hatte mir bei Bulldozers FPU nie so gefallen, dass da quasi immer die Hälfte an Potenzial brach lag.
Zuletzt bearbeitet:
OBrian
Moderation MBDB, ,
- Mitglied seit
- 16.10.2000
- Beiträge
- 17.033
- Renomée
- 267
- Standort
- NRW
- Prozessor
- Phenom II X4 940 BE, C2-Stepping (undervolted)
- Mainboard
- Gigabyte GA-MA69G-S3H (BIOS F7)
- Kühlung
- Noctua NH-U12F
- Speicher
- 4 GB DDR2-800 ADATA/OCZ
- Grafikprozessor
- Radeon HD 5850
- Display
- NEC MultiSync 24WMGX³
- SSD
- Samsung 840 Evo 256 GB
- HDD
- WD Caviar Green 2 TB (WD20EARX)
- Optisches Laufwerk
- Samsung SH-S183L
- Soundkarte
- Creative X-Fi EM mit YouP-PAX-Treibern, Headset: Sennheiser PC350
- Gehäuse
- Coolermaster Stacker, 120mm-Lüfter ersetzt durch Scythe S-Flex, zusätzliche Staubfilter
- Netzteil
- BeQuiet 500W PCGH-Edition
- Betriebssystem
- Windows 7 x64
- Webbrowser
- Firefox
- Verschiedenes
- Tastatur: Zowie Celeritas Caseking-Mod (weiße Tasten)
Ich sehe da durchaus den Trend, die FPU ganz langfristig ganz abzuschaffen. Die GPU muß noch mehr Fähigkeiten bekommen, das ist klar, aber schon jetzt ist es ja so, daß die GPU immer vorhanden ist, entweder als APU oder in fetten PCs als Steckkarte. D.h. ein Softwareentwickler kann schon jetzt langfristig darauf bauen, daß er die GPU immer nutzen kann. Und allgemein ist es doch so, daß Workloads, die eine dicke FPU fordern würden, auf einer GPU prinzipiell noch besser laufen könnten.
Bei Zen muß die FPU noch vorhanden sein, aber muß eben keine neuen Wahnsinnsrekorde aufstellen, sondern nur gut genug sein für den vorhandenen Code. In der nächsten großen Architektur (also erst nach diversen Zen-Evolutionsschritten) kann man die FPU wohl weiter marginalisieren und letztlich ganz weglassen. Gibt keinen Grund, warum die GPU bis dahin nicht so flexibel gestaltet werden kann, daß sie die FPU 100%ig ersetzen kann.
Das ist jetzt sicherlich zehn Jahre weitergedacht oder noch mehr, aber würde mich nicht wundern, wenn es so kommt.
Bei Zen muß die FPU noch vorhanden sein, aber muß eben keine neuen Wahnsinnsrekorde aufstellen, sondern nur gut genug sein für den vorhandenen Code. In der nächsten großen Architektur (also erst nach diversen Zen-Evolutionsschritten) kann man die FPU wohl weiter marginalisieren und letztlich ganz weglassen. Gibt keinen Grund, warum die GPU bis dahin nicht so flexibel gestaltet werden kann, daß sie die FPU 100%ig ersetzen kann.
Das ist jetzt sicherlich zehn Jahre weitergedacht oder noch mehr, aber würde mich nicht wundern, wenn es so kommt.
cyrusNGC_224
Grand Admiral Special
- Mitglied seit
- 01.05.2014
- Beiträge
- 5.924
- Renomée
- 117
- Aktuelle Projekte
- POGS, Asteroids, Milkyway, SETI, Einstein, Enigma, Constellation, Cosmology
- Lieblingsprojekt
- POGS, Asteroids, Milkyway
- Meine Systeme
- X6 PII 1090T, A10-7850K, 6x Athlon 5350, i7-3632QM, C2D 6400, AMD X4 PII 810, 6x Odroid U3
- BOINC-Statistiken
Danke für die Erklärung.Vollkommen wurst, wieviel AVX256-Programme gibts denn? Der Markt ist im Vergleich zu SSE128-Programmen klein, aber die profitieren - im Gegensatz zu Intel - von dem Design.
Das haben wir uns im Forum so schon gewünscht, mit SMT macht das ziemlich viel Sinn
Bulldozer kann pro Takt:
eine 256bit FMA Instruktion
zwei 128bit FMA Instruktionen
zwei 128 bit FMUL/FMADD Instruktionen
Intel kann pro Takt:
zwei 256bit FMA Instruktion
zwei 128bit FMA Instruktionen
zwei 128 bit FMUL/FMADD Instruktionen
Zen könnte:
ein oder zwei 256bit FMA Instruktion (nicht ganz sicher, müsst ich mal nochmal beim Bridge-Design nachlesen, eventuell bräuchte es für einen 256bit Instruktion eine "Quad-µOp", die es so bisher noch nicht gab)
zwei 128bit FMA Instruktionen
vier 128 bit FMUL/FMADD (je 2) Instruktionen (also alles vor AVX / bis SSE4.2)Für alten Code ist das also besser, da jeder SMT-Thread eine - im Vergleich zu früher - quasi vollwertige FPU exklusiv zur Verfügung hat.
Im nächsten Ausbauschritt (10nm) kann man das Design dann schön auf 4x256bit verdoppeln.
Klar, für normale Software braucht man das nicht unbedingt.
Für spezielle schon.
Und im Server bzw. professionellen Markt soll ZEN ja auch Boden gut machen.
Das verfolgt AMD besonders bezüglich HSA schon lange, vermute ich.Ich sehe da durchaus den Trend, die FPU ganz langfristig ganz abzuschaffen.
Allerdings ist eine potente GPU eben nicht immer vorhanden und wenn, dann eben nur eine. Wie will z.B. eine GPU die FPU von 24 CPU Kernen ersetzen, wenn die alle ausgelastet sind (Server, HPC)?
Und was ist mit den Latenzen?
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.335
- Renomée
- 1.973
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Werden gerade im HPC Bereich die CPUs nicht ohnehin gern mit dicken Grafikkarten kombiniert?
Da sehe ich eher weniger Probleme, im Zweifelsfall könnte man immernoch Cluster bilden und für eine bestimmte Anzahl an Kernen eine entsprechende GPU verbauen.
Da sehe ich eher weniger Probleme, im Zweifelsfall könnte man immernoch Cluster bilden und für eine bestimmte Anzahl an Kernen eine entsprechende GPU verbauen.
BoMbY
Grand Admiral Special
- Mitglied seit
- 22.11.2001
- Beiträge
- 7.468
- Renomée
- 293
- Standort
- Aachen
- Prozessor
- Ryzen 3700X
- Mainboard
- Gigabyte X570 Aorus Elite
- Kühlung
- Noctua NH-U12A
- Speicher
- 2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
- Grafikprozessor
- RX 5700 XTX
- Display
- Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
- SSD
- AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
- Optisches Laufwerk
- Sony BD-5300S-0B (eSATA)
- Gehäuse
- Phanteks Evolv ATX
- Netzteil
- Enermax Platimax D.F. 750W
- Betriebssystem
- Windows 10
- Webbrowser
- Firefox
Sieht immer noch so aus wie der "Insider"-Kram, bis auf den separat aufgeführten L/S-Scheduler.
Ich sehe da durchaus den Trend, die FPU ganz langfristig ganz abzuschaffen. Die GPU muß noch mehr Fähigkeiten bekommen, das ist klar, aber schon jetzt ist es ja so, daß die GPU immer vorhanden ist, entweder als APU oder in fetten PCs als Steckkarte. D.h. ein Softwareentwickler kann schon jetzt langfristig darauf bauen, daß er die GPU immer nutzen kann. Und allgemein ist es doch so, daß Workloads, die eine dicke FPU fordern würden, auf einer GPU prinzipiell noch besser laufen könnten.
Bei Zen muß die FPU noch vorhanden sein, aber muß eben keine neuen Wahnsinnsrekorde aufstellen, sondern nur gut genug sein für den vorhandenen Code. In der nächsten großen Architektur (also erst nach diversen Zen-Evolutionsschritten) kann man die FPU wohl weiter marginalisieren und letztlich ganz weglassen. Gibt keinen Grund, warum die GPU bis dahin nicht so flexibel gestaltet werden kann, daß sie die FPU 100%ig ersetzen kann.
Das ist jetzt sicherlich zehn Jahre weitergedacht oder noch mehr, aber würde mich nicht wundern, wenn es so kommt.
Das denke ich eher nicht, denn mit einer dGPU hast du immer die Latenzen des PCIe von ich glaub 1/2us (also im worst case eine FPU mit 2MHz). Wenn der Code jetzt nur eine handvoll FP-Ops braucht dürfte es wohl schon schneller sein, diese zu emulieren.
So wie es aussieht schient AMD bei den APUs auch wieder etwas mehr Abstand zwischen der CPU und GPU zu bringen. Interposer anstelle von single Chip Lösung. Und das dürfte auch wieder etwas mehr Latenzen mit sich bringen, auch wenn es weniger als PCIe sein werden.
Opteron
Redaktion
☆☆☆☆☆☆
Werden gerade im HPC Bereich die CPUs nicht ohnehin gern mit dicken Grafikkarten kombiniert?
Da sehe ich eher weniger Probleme, im Zweifelsfall könnte man immernoch Cluster bilden und für eine bestimmte Anzahl an Kernen eine entsprechende GPU verbauen.
Ja, das war vermutlich dann auch mit ein ausschlaggebender Punkt, um sich beim CPU-Design (immer noch) auf 128bit zu konzentrieren.
Ne ZEN-APU ist dann eine gute Kombination
@OBrian:
Gänzlich überflüssig werden FPUs nie werden, wg. den Latenzen. Für Software, die man gut parallelisieren kann ist da egal, da stimmen Deine Argumente, aber das ist halt nicht immer der Fall. Allerdings sind immer längere Vektoren von anfangs MMX (64) -> SSE (128) und AVX (256 bald 512) ebenfalls von diesem Parallelisierungsgrad abhängig. Von daher machts schon Sinn, dass AMD das Rennen nicht mitmacht, da sie ne gute GPU dafür in der Hinterhand haben.
Lange Vektoren in einer relativ hochtaktenden CPU zu verarbeiten, stell ich mir auch nicht gerade ideal vor, außerdem kostet es auch viel Die-Fläche.
Da freu ich mich eher über ne bessere SMT-Auslastung.
Ähnliche Themen
- Antworten
- 92
- Aufrufe
- 8K
- Antworten
- 14
- Aufrufe
- 934
- Antworten
- 102
- Aufrufe
- 11K
- Antworten
- 3
- Aufrufe
- 2K