App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Bulldozer 2.0 / BDver2: Sepang, Terramar, Komodo, Trinity, Vishera
Opteron
Redaktion
☆☆☆☆☆☆
Na die 4 zusätzlichen AGLU-Befehle. Zugegeben nicht viel, aber mMn schon ein größerer Eingriff. Wenns schon eingebaut wäre, würden sies ja spätestens mit 10h freischalten.Was genau sind für dich "echte Neuerungen"? Laut der Übersicht vor einiger Zeit unterschieden sich 10h und 20h doch so gut wie überhaupt nicht. Im Gegensatz zu 00h.
OOODER: Es gab soviele Bugs, dass sie keine Zeit für den Kleinkram hatten.
Mittlerweile würd ich das auch nicht mehr ausschließen wollen *chat*
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Nun ja, ich sehe da eigentlich nur "MOV reg, reg" als Neuerung, die was bringen kann. Auch wenn ich mir noch nicht erklären kann, warum man die zusätzlichen AGLU Instruktionen nicht schon mit 10h bringt. Vielleicht ist der SOG hier aber auch noch fehlerhaft. 20h wird dort ja auch noch mit bis zu 5 CUs beschrieben.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Ohne mich jetzt durchs SOG zu wühlen...
Die AGLUs lernen mit 20h also das MOV von Register zu Register? - d.h. wenn keine Adresse gebraucht wird, kann ein Mov auch auf der AGLU laufen. - soweit so gut.
War nicht auch mal irgendwas im Gerede das mit 20h "Streaming Stores" verbessert und auf K10-Niveau gehieft werden sollen?
Die AGLUs lernen mit 20h also das MOV von Register zu Register? - d.h. wenn keine Adresse gebraucht wird, kann ein Mov auch auf der AGLU laufen. - soweit so gut.
War nicht auch mal irgendwas im Gerede das mit 20h "Streaming Stores" verbessert und auf K10-Niveau gehieft werden sollen?
Opteron
Redaktion
☆☆☆☆☆☆
Kann es sein, dass Du Anfang Februar nicht online warst?Ohne mich jetzt durchs SOG zu wühlen...
Die AGLUs lernen mit 20h also das MOV von Register zu Register? - d.h. wenn keine Adresse gebraucht wird, kann ein Mov auch auf der AGLU laufen. - soweit so gut.
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1328302051
Das galt für die "zweite Generation" ich nehm mal an, dass damit schon Piledriver gemeint war. Werden wir ja bald sehenWar nicht auch mal irgendwas im Gerede das mit 20h "Streaming Stores" verbessert und auf K10-Niveau gehieft werden sollen?
Opteron
Redaktion
☆☆☆☆☆☆
Hab jetzt meine Meinung geändert.Crashtest hat recht. Family 21 Model 2 Stepping 0 ist C0 (schrieb ich auch auf Twitter so) - vom FX. Da Trinity u. neuere CPUs ein neues Modell darstellen (Modell 16 hatten wir ja schon), werden sie das Stepping (Model minus 16 für Buchstaben + Steppingzahl) neu zählen.
Grund:
a) Ein Orochi mit Piledriver-Kernen wäre eben *keine* neue Modellgruppe. 20h war Komodo mit integriertem PCIe und 3-4 RAM-Kanälen, aber das Ding ist eben gestrichen. Fazit: "Model 2" tuts allemal.
b) Nach der DIV-Geschichte frag ich mich sowieso inwieweit sich Bulldozerkern und Piledriver überhaupt unterscheiden. Sieht immer mehr danach aus, als ob Piledriver nur ein vollständig entbuggter BD ist -> Modell 0h - Fh
c) Zeit: Nach dems jetzt schon bald Mai wird, wird das Zeitfenster für nen C0-Bulldozer und darauffolgendem Vishera immer knapper. Maximal würde das nun ein halbes Jahr werden. Sowas gabs noch nie. Wenn man dagegen Rev.Cx = Vishera setzt passt alles. Man bekam gerade EE-Samples, alles im Zeitplan für nen Launch in H2. Letztes Jahr um die Zeit hatten sie auch schon (fast) B0.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
B) ergibt für mich wenig Sinn. Nur mal zwei Punkte aus dem SOG:
Increased L1 DTLB size to 64 (models 10h–1fh and 20h–2fh)
Und dazu kommt ja auch noch die Geschichte mit den AGLUs. Das hört sich nicht nur nach Fehlerbereinigung an.2.12 Load-Store Unit
...
For models 10h-2Fh the depth
of the load queue is increased to 44 entries.
Opteron
Redaktion
☆☆☆☆☆☆
Stimmt da hast Du recht.
Aber große Eingriffe sind das auch nicht, das läuft dann auch nur unter "Kleinvieh".
Die AGLUs wärem wohl ne größere Baustelle, aber die gabs ja nur für 20h, nicht für 10h. Ich denk das sparen sie sich bis zur 2013er Vishera-Version.
Problem ist immer noch, dass der SOG auf dem Kommodo (=20h)-Stand ist, und wir da irgendwie Vishera reinzwängen müssen, solange AMD kein Update rausrückt.
Ich spekulier eben drauf, dass nach dem nächsten Update da steht:
Increased L1 DTLB size to 64 (models 02h–3fh) (02h = OR-Cx, 30h sollte wohl Kaveri werden).
Aber große Eingriffe sind das auch nicht, das läuft dann auch nur unter "Kleinvieh".
Die AGLUs wärem wohl ne größere Baustelle, aber die gabs ja nur für 20h, nicht für 10h. Ich denk das sparen sie sich bis zur 2013er Vishera-Version.
Problem ist immer noch, dass der SOG auf dem Kommodo (=20h)-Stand ist, und wir da irgendwie Vishera reinzwängen müssen, solange AMD kein Update rausrückt.
Ich spekulier eben drauf, dass nach dem nächsten Update da steht:
Increased L1 DTLB size to 64 (models 02h–3fh) (02h = OR-Cx, 30h sollte wohl Kaveri werden).
AMD könnte den jetzigen BD-µArchitektur-Update-Zyklus von 1 Jahr nicht halten, wenn sie erst ein Design fertig entwickeln und dann schauen würden, was es kann. Alle Architektur-Features, die im BD1 nicht enthalten sind und in BD2+ kommen, wurden so geplant bzw. eingetaktet.
Doch genau, das tun sie..schauen was eine Architektur kann... und dann eventuell das schon in die naechste Generation wieder zu verbessern - zu erwarten. Nur dass sie gewiss nicht warten bis sie tatsaechlich eine neue CPU gegossen haben...sondern das passiert gewiss schon sehr viel frueher...in der Entwicklung .
Ich glaube gewiss nicht, dass erst dass erst ein fertiger Chip vom Band fallen muss, um
schon erste Lehren aus dem Design ziehen zu koennen und Dinge am Design weiterzuentwickeln...
Richtig neue Anpassungen an äußere Gegebenheiten, die größere Architekturänderungen nach sich ziehen(z.B. AVX2), könnten es kaum zum Steamroller schaffen, eher aber zum Excavator.
Solche Dinge dauern doch in der Entwicklung...Jahre... oder!?
Dresdenboy
Redaktion
☆☆☆☆☆☆
Wie würdest du Chuck Moores "HW: The Ultimate Simulator" interpretieren?Doch genau, das tun sie..schauen was eine Architektur kann... und dann eventuell das schon in die naechste Generation wieder zu verbessern - zu erwarten. Nur dass sie gewiss nicht warten bis sie tatsaechlich eine neue CPU gegossen haben...sondern das passiert gewiss schon sehr viel frueher...in der Entwicklung .
Ich glaube gewiss nicht, dass erst dass erst ein fertiger Chip vom Band fallen muss, um
schon erste Lehren aus dem Design ziehen zu koennen und Dinge am Design weiterzuentwickeln...
Eine Architektur in der Simulation (und mit verschiedener Tiefe) zu bewerten, ist eine Sache. Da kann man schon viele Bugs finden und beseitigen sowie etwas optimieren. Aber umso weiter man in den Folgejahren an die Umsetzung in Silizium heranrückt, umso mehr Feinheiten kommen in das Design rein. Aber erst mit echten A0-Mustern können umfangreichere Codebasen und Testcases darauf laufen. Und wenn man sich mal einige Bedingungen zur Provokation von Bugs entsprechend der Errata-Liste anschaut (z.B. TLB-Bug), kann man sich schon vorstellen, warum man diese nicht eher gefunden hat.
Gerade feine Racing Conditions, Timingprobleme usw. in Multiprozessorumgebungen können auf sich warten lassen, bis sie gefunden werden. Warum ist wohl Design for Testability so wichtig?
Ja, aber die einen davon erfordern komplett neue Einheiten (FMA, AES..), teils mit komplettem Umbau anderer Einheiten (Register File, Scheduler, Decoder etc. dank mehr Operanden), und andere erfordern eine Anpassung existierender Einheiten und deren Modus der Nutzung. AVX2 ist die Anwedung der AVX1-Codierung und 256b-Register auf Integer-SIMD. Dafür könnten auf einem BDv1 aufbauend sowohl die existierenden 128b Integer-SIMD-Einheiten (wie jetzt 128b FP für AVX auch) angepasst werden, als auch die schon existierende AVX-Decoderlogik und das Handling der 256b-Werte erweitert werden. Vermutlich könnte es aber eher schon richtige 256b (halb abschaltbar) oder mehr 128b-Einheiten und ein besseres 256b-Registerhandling geben. Effizienteres Decoding gehört dann auch dazu. Was mit den 128b-Load/Store-Pfaden passiert, ist auch fraglich. Das wäre sonst das nächste Bottleneck.Solche Dinge dauern doch in der Entwicklung...Jahre... oder!?
Und wenn man auf vieles aufbauen kann, ist der Aufwand geringer. Jahre dauert es sowieso immer. Aber wenn man strategisch denkt (und das sollte eine Firma in dem Halbleiter-Business genauso tun wie woanders auch), versucht man die Schritte des anderen vorauszudenken. Wer nur reaktiv handelt, kann per se nie Erster sein.
Markus Everson
Grand Admiral Special
Gerade feine Racing Conditions, Timingprobleme usw. in Multiprozessorumgebungen können auf sich warten lassen, bis sie gefunden werden.
Es ist aber nunmal leider so, das BD im Desktop nicht bei einzelnen Anwendungen versagt sondern das er nur in absoluten Ausnahmefällen überhaupt mal "auf Touren kommt". Das hätte die Analyse bereits vor A0 zeigen müssen. (zornig mit dem Fuß aufstampf
Opteron
Redaktion
☆☆☆☆☆☆
Das hat sie sicherlich. Dann hat jemand JF gesagt, dass das bei B0 ganz sicher repariert wird, und die IPC steigen wird, d.h. eine höhere IPC, also eine bessere IPC als vorher, quasi IPC++ (mehr fällt mir jetzt nicht mehr ein).Es ist aber nunmal leider so, das BD im Desktop nicht bei einzelnen Anwendungen versagt sondern das er nur in absoluten Ausnahmefällen überhaupt mal "auf Touren kommt". Das hätte die Analyse bereits vor A0 zeigen müssen. (zornig mit dem Fuß aufstampf
Bloß blöderweise war Vieles dann mit B0 immer noch nicht funktionsfähig und Essig wars mit der IPC... (wenn mir mal JF glauben wollen ... Ich glaub ihm mal. Den Shitstorm nach seiner offensichtlichen Lüge kann man als Marketingmann nicht gewollt haben ^^).
Dresdenboy
Redaktion
☆☆☆☆☆☆
Gut, ich vergaß: Das reale Verhalten von über einer Milliarde 32nm-Transistoren aus der GF-Fertigung im Verbund erlebt man erst, wenn man über eine Milliarde 32nm-Transistoren aus der GF-Fertigung auf einem Chip testen kann.Es ist aber nunmal leider so, das BD im Desktop nicht bei einzelnen Anwendungen versagt sondern das er nur in absoluten Ausnahmefällen überhaupt mal "auf Touren kommt". Das hätte die Analyse bereits vor A0 zeigen müssen. (zornig mit dem Fuß aufstampf
Leistungsfähigkeit hängt von IPC und Takt ab, der Taktspielraum dann vom Verbrauch und der gesetzten TDP. Es spielt alles zusammen, so wie immer.
Kommen die Transistoren nicht so schön aus der Fertigung, wie geplant, geht der Verbrauch hoch, die TDP mag keinen Platz schaffen, also geht die Performanz zwangsweise runter - auf ganzer Linie, wie du andeutest.
deadohiosky
Gesperrt
- Mitglied seit
- 13.07.2011
- Beiträge
- 1.624
- Renomée
- 26
Mir stellt sich hier die Frage ob eine Technologie wie Resonant Clock Mesh auch schon seit Jahren feststeht oder erst Ende 2010 beschlossen wurde, als man sich ausmalen konnte wie sich Bulldozer "verhalten" könnte.
Ist das eher eine Technologie für den Fertigungsprozess oder für die Architektur. Ich ging eigentlich von letzterem aus.
Ist das eher eine Technologie für den Fertigungsprozess oder für die Architektur. Ich ging eigentlich von letzterem aus.
ONH
Grand Admiral Special
http://vr-zone.com/articles/amd-trinity-apu-preview-evolution-or-devolution-/15716.html
Da gibt es anscheinend informationen zu den änderungen in pd gegenüber bd. Ist da was neues dabei? 5te folie
Da gibt es anscheinend informationen zu den änderungen in pd gegenüber bd. Ist da was neues dabei? 5te folie
Zuletzt bearbeitet:
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.349
- Renomée
- 1.975
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Vielleicht ist es etwas weit hergeholt aber wie hoch ist die Chance das die neuen Features der Piledriver bereits im Bulldozer Kern enthalten aber aufgrund von Fehlern nicht aktiv sind? Das würde vielleicht auch ein Grund für das recht große Die sein.
Vieles ist bereits in Hardware vorhanden, wird aber nicht genutzt.
Vieles ist bereits in Hardware vorhanden, wird aber nicht genutzt.
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.225
- Renomée
- 536
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
@sompe
Fiffty Fiffty würde ich mal vermuten, hab schon ein paar Register probiert, aber wirklich mehr Leistung ist nicht bei rumgekommen, da bringt übertakten schon mehr.
Allerdings ist das meiner Meinung nach nur für Benchmarks interessant, im Alltag bringt das kaum was.
Hinzu kommt noch das die meisten Benchmarks mit HT Code arbeiten und somit die 8 Int-Kerne nicht 100% auslasten können.
(Erkennt man auch daran, dass die Programme nur 4 Kerne und 8 Threads anzeigen)
Bleibt nur zu hoffen das AMD bald einen Compiler für Windows bereitstellt und die Entwickler das Modul Konzept bei der Programmierung berücksichtigen.
Aber solange die Entwickler von Intel bezalht werden, wird sich daran wohl nicht viel ändern.
Einzig mit Linux könnte man noch einiges reißen, ich bin zwar dran aber Hexen kann auch ich nicht.
MfG
Fiffty Fiffty würde ich mal vermuten, hab schon ein paar Register probiert, aber wirklich mehr Leistung ist nicht bei rumgekommen, da bringt übertakten schon mehr.
Allerdings ist das meiner Meinung nach nur für Benchmarks interessant, im Alltag bringt das kaum was.
Hinzu kommt noch das die meisten Benchmarks mit HT Code arbeiten und somit die 8 Int-Kerne nicht 100% auslasten können.
(Erkennt man auch daran, dass die Programme nur 4 Kerne und 8 Threads anzeigen)
Bleibt nur zu hoffen das AMD bald einen Compiler für Windows bereitstellt und die Entwickler das Modul Konzept bei der Programmierung berücksichtigen.
Aber solange die Entwickler von Intel bezalht werden, wird sich daran wohl nicht viel ändern.
Einzig mit Linux könnte man noch einiges reißen, ich bin zwar dran aber Hexen kann auch ich nicht.
MfG
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.349
- Renomée
- 1.975
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Kam die 4 Core, 8 Thread Geschichte nicht mit dem Sheduler Update auf, weil die CPU dann als solches und nicht mehr als 8 Kerner angesprochen wurde?
http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index51.php
Das größte Compiler Tuning Potential sehe ich eher bei der Nutzung der normalerweise brachliegenden Befehlssätze wie AVX und FMA.
http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index17.php
http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index51.php
Das größte Compiler Tuning Potential sehe ich eher bei der Nutzung der normalerweise brachliegenden Befehlssätze wie AVX und FMA.
http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index17.php
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Das mag stimmen, aber Compiler können ggf. auch auf die Eigenheiten von BDs Fetch und Decode-stufe Rücksicht nehmen.
Ich hab da was im Hinterkopf was im Spekulatiusforum vor dem BD-Launch herumgeisterte und als "Accellerated Mode" oder so ähnlich seitens AMD betitelt wurde. - Das Klingt für mich danach als ob eben dieser Modus bei gut präpariertem Code zum Tragen kommen kann und das Dekodieren beschleunigen. - Und genau hier haperts ja auch bei BD noch recht ordentlich.
Trinity sieht hier schon eine Version besser aus. - Aber was mich nachdenklich stimmt ist, dass Intel schon seit mehreren CPU-Generationen mit Loop-Cache / Trace - Cache arbeitet, und gerade SAndy IMHO auch ordentlich von seinem µOp-Buffer profitiert. - Während AMD sowas anscheinend nicht gebacken kriegt und munter ein und die selbe Instruktion 100 mal durch den Decoder jagt (dessen Bandbreite sowieso knapp ist) wenn ich eine Schleife mit 100 Durchläufen schreib.
Also entweder ist sowas extrem kompliziert und schwer beherrschbar und Intel kann das Momentan auch nur stemmen durch die Vorarbeit zu Netburst-Zeiten, oder irgendwas ist faul in AMDs Ingineurscorps.
Ich meine, welcher CPU-Inginieur setzt freiwillig mehr Transistoren unter Feuer als nötig wären um eine Aufgabe zu erledigen? - und gerade bei geteilten Ressourcen kann es doch nur sinnvoll sein sich die Arbeit zu ersparen...!?
Hoffentlich sehen wir was änhliches in Steamroller oder so... wäre langsam an der Zeit...
Ich hab da was im Hinterkopf was im Spekulatiusforum vor dem BD-Launch herumgeisterte und als "Accellerated Mode" oder so ähnlich seitens AMD betitelt wurde. - Das Klingt für mich danach als ob eben dieser Modus bei gut präpariertem Code zum Tragen kommen kann und das Dekodieren beschleunigen. - Und genau hier haperts ja auch bei BD noch recht ordentlich.
Trinity sieht hier schon eine Version besser aus. - Aber was mich nachdenklich stimmt ist, dass Intel schon seit mehreren CPU-Generationen mit Loop-Cache / Trace - Cache arbeitet, und gerade SAndy IMHO auch ordentlich von seinem µOp-Buffer profitiert. - Während AMD sowas anscheinend nicht gebacken kriegt und munter ein und die selbe Instruktion 100 mal durch den Decoder jagt (dessen Bandbreite sowieso knapp ist) wenn ich eine Schleife mit 100 Durchläufen schreib.
Also entweder ist sowas extrem kompliziert und schwer beherrschbar und Intel kann das Momentan auch nur stemmen durch die Vorarbeit zu Netburst-Zeiten, oder irgendwas ist faul in AMDs Ingineurscorps.
Ich meine, welcher CPU-Inginieur setzt freiwillig mehr Transistoren unter Feuer als nötig wären um eine Aufgabe zu erledigen? - und gerade bei geteilten Ressourcen kann es doch nur sinnvoll sein sich die Arbeit zu ersparen...!?
Hoffentlich sehen wir was änhliches in Steamroller oder so... wäre langsam an der Zeit...
Opteron
Redaktion
☆☆☆☆☆☆
Jo habs mir auch nochmal überlegt, 2xµOp Cache würde wohl reichen um das Ganze deutlich zu entspannen und nähme auch nicht viel Platz weg. War bisher ja der 2x Decoder Fan, aber was ich da vergaß war das Interface zur Xbar, das würde man damit (höchstwahrscheinlich) auch verdoppeln (außer man beließe es bei einem gemeinsamen L1I-Cache, aber ob das dann was brächte?) -> Dickes Problem, bis 8 Kernen gehts vielleicht noch, aber dann wär ein Ring wie bei Intel nicht verkehrt.Hoffentlich sehen wir was änhliches in Steamroller oder so... wäre langsam an der Zeit...
Bin echt gespannt, was AMD beim Streamroller treiben.
Zum Compiler: Hab gerade im Heise-Forum gelesen, dass jemand meinte dass sein spezieller Code sehr gut mit Clang+LLVM laufen würde, fast auf Intel-Niveau, deutlich vor GCC. Mal schauen, ob das langfristig was wird ...
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Mein Reden
Eigentlich war ich bisher der Meinung dass das ganze BD-Konzept regelrecht prädestiniert für µOp Cache ist. Evtl. sogar ein einzelner für beide Kerne... genauso wie es nur 1 L1I-Cache gibt... ich weiss nicht wie hoch die wahrscheinlichkeit ist, dass es die selbe instruktion in 2 threads gibt... aber wenn der fall eintritt, würde ein gemeinsamer µop cache sogar dem zweiten Thread das dekodieren ersparen...
Zwei einzelne sind natürlich auch gut...
hauptsache in der Richtugn geht mal was
Eigentlich war ich bisher der Meinung dass das ganze BD-Konzept regelrecht prädestiniert für µOp Cache ist. Evtl. sogar ein einzelner für beide Kerne... genauso wie es nur 1 L1I-Cache gibt... ich weiss nicht wie hoch die wahrscheinlichkeit ist, dass es die selbe instruktion in 2 threads gibt... aber wenn der fall eintritt, würde ein gemeinsamer µop cache sogar dem zweiten Thread das dekodieren ersparen...
Zwei einzelne sind natürlich auch gut...
hauptsache in der Richtugn geht mal was
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.349
- Renomée
- 1.975
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Wie oft kommen solche Schleifen denn im Alltag bei der Wald und Wiesen Software vor?
Crashtest
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 11.11.2008
- Beiträge
- 9.275
- Renomée
- 1.413
- Standort
- Leipzig
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- Collatz, yoyo, radac
- Lieblingsprojekt
- yoyo
- Meine Systeme
- Ryzen: 2x1600, 5x1700, 1x2700,1x3600, 1x5600X; EPYC 7V12 und Kleinzeuch
- BOINC-Statistiken
- Folding@Home-Statistiken
- Mein Laptop
- Lenovo IdeaPad 5 14ALC05
- Prozessor
- Ryzen 7950X / Ryzen 4750G
- Mainboard
- ASRock B650M PGRT / X570D4U
- Kühlung
- be quiet! Dark Rock Pro4 / Pure Rock Slim 2
- Speicher
- 64GB DDR5-5600 G Skill F5-5600J3036D16G / 32 GB DDR4-3200 ECC
- Grafikprozessor
- Raphael IGP / ASpeed AST-2500
- Display
- 27" Samsung LF27T450F
- SSD
- KINGSTON SNVS2000G
- HDD
- - / 8x Seagate IronWolf Pro 20TB
- Optisches Laufwerk
- 1x B.Ray - LG BD-RE BH16NS55
- Soundkarte
- onboard HD?
- Gehäuse
- zu kleines für die GPU
- Netzteil
- be quiet! Pure Power 11 400W / dito
- Tastatur
- CHERRY SECURE BOARD 1.0
- Maus
- Logitech RX250
- Betriebssystem
- Windows 10 19045.3996 / Server 20348.2227
- Webbrowser
- Edge 120.0.2210.121
- Verschiedenes
- U320 SCSI-Controller !!!!
- Internetanbindung
- ▼1000 MBit ▲82 MBit
http://opencompute.org/wp/wp-conten...ompute_Project_AMD_Motherboard_Roadrunner.pdf
* Two sockets per board
* Support for AMD processor codenamed “Magny-Cours”, “Interlagos”, and “Abu Dhabi” processors
* Abu Dhabi (“Orochi”-Rev C) support is mandatory
* Supports Infrastructure Group A, B, C: 85W, 115W, and 140W TDPs
* Magny-Cours: 8/12 cores codenamed “Greyhound” for Hydra die (MCM)
* Interlagos: 12/16 cores codenamed “Bulldozer” for Orochi die (SCM)
* Abu Dhabi: 4/8/12/16 cores codenamed “Piledriver” (MCM)
* Coherent Links: Triple x16 HyperTransport3 link supporting speeds up to 6.4 GT/s with support for HT1 operation @ 2.0 GT/s
damit dürfte doch alles gesagt sein oder ?
Zuletzt bearbeitet:
Onkel_Dithmeyer
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 22.04.2008
- Beiträge
- 12.943
- Renomée
- 4.014
- Standort
- Zlavti
- Aktuelle Projekte
- Universe@home
- Lieblingsprojekt
- Universe@home
- Meine Systeme
- cd0726792825f6f563c8fc4afd8a10b9
- BOINC-Statistiken
- Prozessor
- Ryzen 9 3900X @4000 MHz//1,15V
- Mainboard
- MSI X370 XPOWER GAMING TITANIUM
- Kühlung
- Custom Wasserkühlung vom So. G34
- Speicher
- 4x8 GB @ 3000 MHz
- Grafikprozessor
- Radeon R9 Nano
- Display
- HP ZR30W & HP LP3065
- SSD
- 2 TB ADATA
- Optisches Laufwerk
- LG
- Soundkarte
- Im Headset
- Gehäuse
- Xigmatek
- Netzteil
- BeQuiet Dark Pro 9
- Tastatur
- GSkill KM570
- Maus
- GSkill MX780
- Betriebssystem
- Ubuntu 20.04
- Webbrowser
- Firefox Version 94715469
- Internetanbindung
- ▼100 Mbit ▲5 Mbit
Ich finde die Einträge in dem PDF nicht
Wenn es stimmt hat Piledriver wieder "nur" 8 Kerne pro Die. Waren für BD nicht schon mal 10 gemunkelt worden?
Wenn es stimmt hat Piledriver wieder "nur" 8 Kerne pro Die. Waren für BD nicht schon mal 10 gemunkelt worden?
Ähnliche Themen
- Antworten
- 368
- Aufrufe
- 39K
- Antworten
- 28
- Aufrufe
- 20K
- Antworten
- 0
- Aufrufe
- 2K
G
- Antworten
- 0
- Aufrufe
- 2K
G
- Antworten
- 8
- Aufrufe
- 4K