App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Spekulationsthread: Was kommt 2011+
- Ersteller Ge0rgy
- Erstellt am
Opteron
Redaktion
☆☆☆☆☆☆
Naja ... das Naheliegenste wäre, dass der Store die gleiche Adresse wie einer der Loads haben muss ...Das erklärt aber immernoch nicht wie man 2 Loads & 1 store pro cycle mit 2 AGUs abhandeln will!?
Also entweder muss das mit Einschränkungen verbunden sein oder irgendwo haben wir nen Bruch in der Logik bzw. zuwenig Infos.
Die Berechnungen ansich laufen ja eh auf den Registern ab, selbst die neuen FMA4 Befehle haben nur 1 Mem Parameter.
Aber naja, vermutlich übersehen wir nur noch was, da es ne komplexe Angelegeheit ist.
.
EDIT :
.
So wenigstens sind die 2 MB L2 jetzt in trockenen Tüchern:
Zitat von JF:
http://bit.ly/a0ykVqA shared L2 cache means that both cores have access to read the same cache lines – but obviously only one can write any cache line at any time. This means that if you have a workload with a main focus of querying data and your two threads are sharing a data set that fits in our 2MB L2, then having them execute in the same module could have some advantages.
Bin ja mal gespannt, ob er sich da verplappert hat, oder nicht ... ^^
.
EDIT :
.
as von der c't hat jetzt auch das Proz. Geflüster online, gabs die Performance Zahlen schon ?
http://www.heise.de/ct/artikel/Prozessorgefluester-1064662.htmlMit seinen 8 Modulen – also je nach Sichtweise 8 bis16 Kernen – soll der Bulldozer-Serverchip Interlagos rund 70 Prozent mehr Integer-Performance (SPECint) als der 12-Kerner Magny-Cours erzielen, das sieht demnach nicht wirklich nach einem „verhungernden“ Frontend aus. Neben dem dicken Interlagos mit bis zu 8 MByte L3-Cache für alle Module auf dem Chip will AMD halb so große Chips für Server (Valencia) und High-End-Desktop-PCs (Zambezi) herausbringen. Für Gleitkommaberechnungen hat Interlagos im Vergleich zu Magny-Cours zwar ein Drittel weniger Rechenkerne zu bieten, dennoch soll bei ihm dank AVX und FMA und besserer Speicheranbindung die SPECfp-Rechenleistung um ein Drittel höher liegen. Dabei sind die FPUs noch nicht einmal an dem kleinen L1-Cache angeschlossen. Einen L1-Bypass für die FPUs, den hatte Intels wenig erfolgreicher Itanium auch – hoffentlich ist das kein schlechtes Omen
ciao
Alex
Zuletzt bearbeitet:
Dr@
Grand Admiral Special
- Mitglied seit
- 19.05.2009
- Beiträge
- 12.791
- Renomée
- 4.066
- Standort
- Baden-Württemberg
- Aktuelle Projekte
- Collatz Conjecture
- Meine Systeme
- Zacate E-350 APU
- BOINC-Statistiken
- Mein Laptop
- FSC Lifebook S2110, HP Pavilion dm3-1010eg
- Prozessor
- Turion 64 MT37, Neo X2 L335, E-350
- Mainboard
- E35M1-I DELUXE
- Speicher
- 2x1 GiB DDR-333, 2x2 GiB DDR2-800, 2x2 GiB DDR3-1333
- Grafikprozessor
- RADEON XPRESS 200m, HD 3200, HD 4330, HD 6310
- Display
- 13,3", 13,3" , Dell UltraSharp U2311H
- HDD
- 100 GB, 320 GB, 120 GB +500 GB
- Optisches Laufwerk
- DVD-Brenner
- Betriebssystem
- WinXP SP3, Vista SP2, Win7 SP1 64-bit
- Webbrowser
- Firefox 13
Mit seinen 8 Modulen – also je nach Sichtweise 8 bis16 Kernen – soll der Bulldozer-Serverchip Interlagos rund 70 Prozent mehr Integer-Performance (SPECint) als der 12-Kerner Magny-Cours erzielen, das sieht demnach nicht wirklich nach einem „verhungernden“ Frontend aus. Neben dem dicken Interlagos mit bis zu 8 MByte L3-Cache für alle Module auf dem Chip will AMD halb so große Chips für Server (Valencia) und High-End-Desktop-PCs (Zambezi) herausbringen. Für Gleitkommaberechnungen hat Interlagos im Vergleich zu Magny-Cours zwar ein Drittel weniger Rechenkerne zu bieten, dennoch soll bei ihm dank AVX und FMA und besserer Speicheranbindung die SPECfp-Rechenleistung um ein Drittel höher liegen. Dabei sind die FPUs noch nicht einmal an dem kleinen L1-Cache angeschlossen. Einen L1-Bypass für die FPUs, den hatte Intels wenig erfolgreicher Itanium auch – hoffentlich ist das kein schlechtes Omen
Woher nimmt der das? Auf der Folie sieht das anders aus:
Ich sehe da einen direkten Pfeil vom L1D zur FPU
Und erneut wird dieser Quatsch verbreitet:
Auch der andere Prozessor der geplanten „Fusion“-Serie mit integrierten Grafikprozessoren greift für die CPU-Kerne auf eine bewährte, wenn auch erheblich weiterentwickelte Altarchitektur zurück, nämlich auf den K8-Kern. Der ist um einiges kleiner als der aktuelle K10, unter anderem dank schmalerer interner Datenbusse. Doch zu Llano hat AMD noch keine weiteren Details veröffentlicht.
Da JF immer betont, es würde bis zum ´Start keine weiteren Angaben zur Performance geben als die bekannte, wird das wohl reine Spekulation sein.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Du darfst gerne weiterspekulieren. Hat ja niemand etwas dagegen. Dann behaupte aber nicht, dass ich Sachen gesagt hätte, was gar nicht stimmt.Ja, das Thema hatten wir doch auch schon 3x, was solls den sonst sein ... wir spekulieren da jetzt weiter, da wir das so annehmen, dass das BD ist und aktuell wird jetzt diskutiert, wie da jetzt was gemeint sein könnte, ob bei den "4" ALUs nun die "MMX" Pipes dabei sind, oder ob das "4" wg. der 2 IMAC Pipes sein könnten, die dann 2 Befehle pro Takt und Pipe verarbeiten können, oder oder oder. Wie besagt, da bist Du herzlich willkommen, aber die ollen Kammellen interessieren keinen mehr. Wir spekulieren da munter weiter, ob mit oder ohne Dir
Opteron
Redaktion
☆☆☆☆☆☆
So wenigstens sind die 2 MB L2 jetzt in trockenen Tüchern:
Zitat von JF:
http://bit.ly/a0ykVq
Bin ja mal gespannt, ob er sich da verplappert hat, oder nicht ... ^^
LOL:
Thanks for catching that typo, I corrected it.
@Dr@:
Ja, die Story mit dem K8 wollt ich schon gar nicht mehr kommentieren ...
Zum Bypass .. keine Ahnung, ich geh aber mal davon aus, dass er interne Dokus hat, die 2MB L2 Info hat er auch, und die hat JF gerade erst wieder geschärzt.
Könnte also schon was dran und die Marketingfolie nur falsch sein.
ciao
Alex
nazgul99
Grand Admiral Special
- Mitglied seit
- 01.05.2005
- Beiträge
- 3.592
- Renomée
- 224
- Standort
- Irgendwo in der Nähe
- Mein Laptop
- ThinkPad Edge E145 / 8GB / M500 480GB / Kubuntu /// Asus U38N / 6GB / Matt / Postville / Kubuntu/W8
- Prozessor
- AMD A10-7800
- Mainboard
- MSI A88XI AC
- Kühlung
- Scythe Shuriken Rev.2
- Speicher
- 2x 8GB DDR3-2133
- Grafikprozessor
- IGP
- Display
- HP LP2465, MVA, 1920x1200, 24"
- SSD
- Samsung 850 EVO 500GB
- HDD
- ST9500325AS 500GB
- Optisches Laufwerk
- ja, so'n USB-Dings
- Soundkarte
- onboard, optisch -> SMSL Q5 PRO -> ELAC EL60
- Gehäuse
- Silverstone ML06B
- Netzteil
- SST-ST30SF
- Betriebssystem
- Kubuntu
- Webbrowser
- Firefox
- Verschiedenes
- Synology DS414slim 3x 1,5 TB RAID5
Andreas Stiller ist wohl nicht gut drauf, gibt auch noch ausgerechnet den Spät-Nachplapperer Fudo als Quelle für die TDP-Werte an. Ich dachte er liest hier mit? Oder zumindest bei Citavia?
Opteron
Redaktion
☆☆☆☆☆☆
Hier liest er garantiert nicht mit, sonst wäre er auch nicht auf die Idee gekommen, dass die AMD 4 Operand Befehle von SSE5 übrig geblieben wären.Andreas Stiller ist wohl nicht gut drauf, gibt auch noch ausgerechnet den Spät-Nachplapperer Fudo als Quelle für die TDP-Werte an. Ich dachte er liest hier mit? Oder zumindest bei Citavia?
Auf alle Fälle ne schlechte Stiller News, Interlagos und ein gemeinsamer 8 MB L3 glaub ich auch erst, wenn ichs sehe ...
Bobo_Oberon
Grand Admiral Special
- Mitglied seit
- 18.01.2007
- Beiträge
- 5.045
- Renomée
- 190
http://blogs.amd.com/work/2010/08/30/bulldozer-20-questions-–-part-2/
Intel will bei den dicken Sandy Bridge Eisen nativ zum Quick Path parallel auch PCI-Express 3.0 Interfaces hineinbacken. Also Bandbreite satt bei Intel.
MFG Bobo(2010)
Wundert mich etwas, aber hängt wohl davon ab, wann PCI-Express 3.0 bei AMDs Chipsätzen startet.“Will Bulldozer implement new versions of Hypertransport?” – Rheo
No, Bulldozer takes advantage of the same version of HyperTransport™ (HT) technology as our existing AMD Opteron™ 4000 and 6000 series processors, HyperTransport 3.1.
Intel will bei den dicken Sandy Bridge Eisen nativ zum Quick Path parallel auch PCI-Express 3.0 Interfaces hineinbacken. Also Bandbreite satt bei Intel.
“Is there any”programmable-tangible” improvement in synchronization between cores in the same module? In other words, will I get tangible performance improvement if I can partition my multi-threaded algorithm to pairs of closely interacting threads, and schedule each pair to a module?” – Edward Yang
“How much extra performance will we see when running two-threaded applications on one Bulldozer Module compared to two cores in different modules?” – Simon
“Current and forthcoming Nehalem EX based servers from IBM and HP top out at 8 sockets and 64 cores. What kind of vertical scalability can we expect from Bulldozer-based servers?” – David Roff
“As far as power usage goes, from what I understand BD is supposed to be taking power management features to a level of granularity that hasn’t been seen yet with consumer/business grade CPUs. Will those new features be available to current MC users or will a platform upgrade be necessary? Can you elaborate on any new power saving features that would make a business want to consider BD at this time?” – Jeremy Stewart
MFG Bobo(2010)
Zuletzt bearbeitet:
ich kann leider den Post von JF-AMD nicht mehr finden, bestimmt wurde der Post entfernt, es stand aber was von AMD arbeitet bereits an einem neuem BD Design evtl. bezog sich das auf BD 2. (wie wärs wenn jemand JF fragen würde?)Wo genau?
Nun, in dem Zitat sagt er eigentlich, daß die ALUs auch AGU-Instruktionen abarbeiten können, wohl sogar gleichzeitg zu einer ALU-Instruktion (dual issue), wenn er da nicht Blödsinn(*) erzählt hat. Daß würde aber zu potentiell vier AGUs führen, was in meinen Augen ein wenig nach Overkill aussieht.Was für mich immer noch unklar ist, ist die Aussage von Greg Hoeppner während der QnA, dass in den Integer-Cores ein integer MAC integriert sei. In den Folien von der Hot Chips war davon dann aber nichts zu sehen. Statt dessen ist in die FPU eine MMX Pipe eingezeichnet.
"they will be both
the integer core is dual-issue
each one contains an integer MAC along with the address generation and arithmetic functions"
Das ist seine Antwort auf die Frage nach den Fähigkeiten der 4 Integer Pipes. Ob es ALUs oder AGUs sind.
Eine AGU ist ja im Prinzip ein 3fach Addierer mit Bitshift eines Summanden. Den Shift kann man mit ein wenig gutem Willen auch als Multiplikation verkaufen, so daß die Bezeichnung Integer Multiply ACumulate dafür nicht völlig abwegig erscheint.
(*) Oder er hat die Frage nach den vier Pipelines nicht ganz verstanden und redet in der K7..K10-Terminologie mit paarigen ALUs/AGUs, wo jede Reservation Station auch "Dual Issue" ist. Dann hat er wohl gemeint, daß es 2 ALUs und 2 AGUs gibt, ohne weiter ins Detail zu gehen.
AVX.Das erklärt aber immernoch nicht wie man 2 Loads & 1 store pro cycle mit 2 AGUs abhandeln will!?
Also entweder muss das mit Einschränkungen verbunden sein oder irgendwo haben wir nen Bruch in der Logik bzw. zuwenig Infos.
Angenommen alle 256Bit Loads/Stores generieren zwei 128Bit L/S-Requests, dann können die zwei AGUs im Prinzip zu maximal vier L/S-Requests pro Takt führen. Das Gleiche macht ein K10 übrigens bei 128Bit Stores (wird in zwei 64Bit-Zugriffe zerlegt, Loads werden direkt in 128Bit abgearbeitet). Das ist übrigens wegen BDs Möglichkeit auch mit 128Bit-Anweisungen die FPU auszulasten eventuell recht sinnvoll.
Markus Everson
Grand Admiral Special
Auf alle Fälle ne schlechte Stiller News, Interlagos und ein gemeinsamer 8 MB L3 glaub ich auch erst, wenn ichs sehe ...
Ich gehe inzwischen davon aus das AS einen Praktikanten als Ghostwriter für AMD-Prozessornews beschäftigt. Aber auf mich hört ja eh keiner
.
EDIT :
.
Intel will bei den dicken Sandy Bridge Eisen nativ zum Quick Path parallel auch PCI-Express 3.0 Interfaces hineinbacken. Also Bandbreite satt bei Intel.
Ist denn PCIe 2.0 schon bei den Steckkarten im Server angekommen? Ich hätte vermutet das selbst 1.0 x 16 noch ne Weile reicht, also die Anzahl der Lanes mehr zählt als die Geschwindigkeit pro Lane.
Opteron
Redaktion
☆☆☆☆☆☆
Das war ursprünglich vermutlich für ne Menge Larrabees gedachtIst denn PCIe 2.0 schon bei den Steckkarten im Server angekommen? Ich hätte vermutet das selbst 1.0 x 16 noch ne Weile reicht, also die Anzahl der Lanes mehr zählt als die Geschwindigkeit pro Lane.
.
EDIT :
.
AVX.
Angenommen alle 256Bit Loads/Stores generieren zwei 128Bit L/S-Requests, dann können die zwei AGUs im Prinzip zu maximal vier L/S-Requests pro Takt führen. Das Gleiche macht ein K10 übrigens bei 128Bit Stores (wird in zwei 64Bit-Zugriffe zerlegt, Loads werden direkt in 128Bit abgearbeitet). Das ist übrigens wegen BDs Möglichkeit auch mit 128Bit-Anweisungen die FPU auszulasten eventuell recht sinnvoll.
Ahh, also auf Deutsch, die AGUs berechnen jeweils eine 256bit Adresse ?
Crashtest
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 11.11.2008
- Beiträge
- 9.310
- Renomée
- 1.433
- Standort
- Leipzig
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- Collatz, yoyo, radac
- Lieblingsprojekt
- yoyo
- Meine Systeme
- Ryzen: 2x1600, 5x1700, 1x2700,1x3600, 1x5600X; EPYC 7V12 und Kleinzeuch
- BOINC-Statistiken
- Folding@Home-Statistiken
- Mein Laptop
- Lenovo IdeaPad 5 14ALC05
- Prozessor
- Ryzen 7950X / Ryzen 4750G
- Mainboard
- ASRock B650M PGRT / X570D4U
- Kühlung
- be quiet! Dark Rock Pro4 / Pure Rock Slim 2
- Speicher
- 64GB DDR5-5600 G Skill F5-5600J3036D16G / 32 GB DDR4-3200 ECC
- Grafikprozessor
- Raphael IGP / ASpeed AST-2500
- Display
- 27" Samsung LF27T450F
- SSD
- KINGSTON SNVS2000G
- HDD
- - / 8x Seagate IronWolf Pro 20TB
- Optisches Laufwerk
- 1x B.Ray - LG BD-RE BH16NS55
- Soundkarte
- onboard HD?
- Gehäuse
- zu kleines für die GPU
- Netzteil
- be quiet! Pure Power 11 400W / dito
- Tastatur
- CHERRY SECURE BOARD 1.0
- Maus
- Logitech RX250
- Betriebssystem
- Windows 10 19045.4355 / Server 20348.2402
- Webbrowser
- Edge 124.0.2478.51
- Verschiedenes
- U320 SCSI-Controller !!!!
- Internetanbindung
- ▼1000 MBit ▲82 MBit
Ist denn PCIe 2.0 schon bei den Steckkarten im Server angekommen? Ich hätte vermutet das selbst 1.0 x 16 noch ne Weile reicht, also die Anzahl der Lanes mehr zählt als die Geschwindigkeit pro Lane.
Ja nur dass ein PCIe 2.0 x16 Slot manchmal auch nicht mehr ausreichend ist - 100Gigabit-Netzwerkadapter sprengen PCIe 2.0 x16 und sprengen sogar fast PCIe 3.0 x16; ok sind noch sehr selten aber kommen - ggf per HTX 3.1 @ 3.2GHz oder im sehr seltenes PCIe 2.0 x32 Slot
Lynxeye
Admiral Special
- Mitglied seit
- 26.10.2007
- Beiträge
- 1.107
- Renomée
- 60
- Standort
- Sachsen
- Mein Laptop
- Lifebook T1010
- Prozessor
- AMD FX 8150
- Mainboard
- Gigabyte GA-970A-UD3
- Kühlung
- Zalman Reserator 1 Plus
- Speicher
- 4x8GB DDR3-1600 G.Skill Ripjaws
- Grafikprozessor
- ASUS ENGTX 260
- Display
- 19" AOC LM928 (1280x1024), V7 21" (1680x1050)
- HDD
- Crucial M4 128GB, 500GB WD Caviar 24/7 Edition
- Optisches Laufwerk
- DVD Multibrenner LG GSA-4167B
- Soundkarte
- Creative Audigy 2 ZS
- Gehäuse
- Amacrox Spidertower
- Netzteil
- Enermax Liberty 500W
- Betriebssystem
- Fedora 17
- Webbrowser
- Firefox
- Verschiedenes
- komplett Silent durch passive Wasserkühlug
Das ist aber schon ein ziemliches Extrembeispiel. 100GBit NICs werden wohl sehr wenige Leute in ihren Servern einsetzen. Schon bei 2x10GBit wird es schwer einen entsprechenden Unterbau drunter zu setzen um die Bandbreite aus zu lasten, wenn der Server auch noch was sinnvolles machen soll und nicht nur Netzwerkpakete durch die Gegend schaukeln soll.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Ahh, also auf Deutsch, die AGUs berechnen jeweils eine 256bit Adresse ?
265Bit Adressen!?
Markus Everson
Grand Admiral Special
Ja nur dass ein PCIe 2.0 x16 Slot manchmal auch nicht mehr ausreichend ist - 100Gigabit-Netzwerkadapter sprengen PCIe 2.0 x16 und sprengen sogar fast PCIe 3.0 x16
Na ja, deshalb die Frage. Das man auch 2.0 sättigen kann ist klar, aber wie weit ist das innerhalb der Lebensdauer der CPU (vier/sechs Jahre?) schon relevant? Ist PCIe 2.0 in den gegenwärtig ausgelieferten Servern schon die Regel?
Opteron
Redaktion
☆☆☆☆☆☆
Allgemein würde ich jetzt vorschlagen nochmal die Dekoderpatente abzugrasen (lesen), das ist der letzte dunkle Punkt bei BD. Vor ein paar Seiten hatten wir schon die 8fach Diskussion, die dadurch entsteht, dass die Pack Unit wegfällt und das Dispatch Unit verdoppelt wird. Eventuell ist da sogar irgendwo auch der mysteriöse accelerate Mode vergraben.
(...)
P.S:
Wg. Pack Unit, Hans De Vries schrieb da im K8 Artikel:
Wenn das jetzt wirklich 6 pro Takt wären, wären das jetzt bei BD im Maximalfall dann 8 und der 8fach Dispatch würde Sinn machen. Aber im Patent steht ja, dass es 6 pro 2 Takte waren ... die Info sollte damit falsch sein.
Quelle mit "Richtungsangaben" :
http://www.planet3dnow.de/vbulletin/showthread.php?p=4255797#post4255797
So wies ausschaut sollte das jetzt auch gelöst sein, zumindest klingt es recht plausibel. Bisher war mir nicht klar, was der 8fach Dispatch soll, wenn nur 4 Instr. aus den Dekodern kommen. Na .. da muss der Rest dann einfach aus dem Trace Cache / RRC kommen.
Das hatten wir ja eigentlich schon mal fürs 2x4 Design Pipeline angedacht, aber das macht jetzt auch schon Sinn. Dispatch ist ja direkt nach den Dekodern, vor den Schedulern, optimal für eine µOp Injektion aus dem RRC. Wenn der schon alle Daten liefern kann, gehen dann pro Takt halt idealerweise 8 Ops anstatt 4 durch die INT+FP Pipes.
Mehr oder weniger hatte das mmarq auf AMDzone geschrieben:
http://www.amdzone.com/phpbb3/viewtopic.php?f=52&p=187176Dispatch is 2 windows out of 3 "MAX_DISPATCH_WINDOWS"... meaning IMO, that BD is more o-o-o than "K10", able to change instructions out-of-order in blocks of at least 4 instructions positions (Maximum number of instructions in a window. */+#define MAX_INSN 4)... and attending that INSIDE each window, instructions can also execute out-of-order, the displacement can be "up to" 7 instructions positions... which BTW corresponds with the max cycles that can be gained if the execution proceeds from a trace cache called "Redirect Recovery Cache".
And IMO( may be wrong) this "accelerate mode" has to do exactly with the ability to "lookahead"... and Data Speculation... the first deals with "operand" values the later with "load" values...
If out of this 3 "dispatch windows" outstanding, if 2 (which can be separated in their order by another "dispatch window" of 4 instructions, because they are chosen out of 3) can be dispatched FOR the SAME Cluster/Core, and have the right combination of instructions that already have the operand and load values at hand... then a truly "run-ahead" condition is meet... better said, 8 instructions will execute pronto without any bubble.
Of course the same can be said if 2 "dispatch windows" are send one for each core/cluster... " "lookahead", means guaranty of no bubbles in each of this "blocks" of instructions, means "accelerated mode".
Macht so eigentlich am meisten Sinn, und läßt für mich keine Fragen offen, auch die Doubles stören dann nicht (dachte zuerst ja, die wären für den 8fach Dispatch verantwortlich).
Mal schauen ob es stimmt, oder sieht jemand schon jetzt *das* große Problem ?
ciao
Alex
Opteron
Redaktion
☆☆☆☆☆☆
Nö, der 4fach Double Decoder kann laut Patenten nur immer 4 µOps weiterleiten, die 4 Doppelblöcke haben nur je 1 Ausgang.Ich verlor irgnedwie ziemlich den Überblick.
Was willst du im Grunde sagen?
Dass es wegen den 8 fach Dispatch dann 4-fach-double-Decoder gibt, die die 2x2-ALU im Hochtakt (= Doppeltakt) mit 8 Ops versorgen??
Am Dispatch gehts aber 8fach weiter - wozu ?
Lösung: Da können auch noch parallel zu den Decodern µOps aus dem Tracecache/RRC einsickern.
Mal die ganzen Bildchen nochmal im Paket:
Wobei ... im 2ten Bildchen geht der Pfeil nicht in den Dispatch, sondern in die Map Unit .. naja die fehlt wohl noch im ersten, da wird in den Patenten ja immer gerne vereinfacht.
Frage die offen bleibt, kann man den Compiler auf sowas optimieren lassen ? Vielleicht ist der accelerate mode doch was anderes ...
ciao
Alex
Zuletzt bearbeitet:
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Also ohne es vollständig zu verstehen, sehe ich das so, als ob der Compiler je nach Aufteilung der Instruktionen in diese "Instruction windows" und Platzierung der loads/stores der OoO-Engine helfen kann diesen "lookahead" - status zu erreichen und die 8 Operationen im Batch durch die ALUs zu jagen...
Aber vielleicht stell ich mir das auch zu einfach vor.
Jedenfalls wäre ein Tracecache wohl wirklich eine Plausible Erklärung dafür dass 4 fach reinkommt (über die Decoder) und der Dispatch plötzlich 8 ausliefern will.
Derartiger Übereifer ist zwar lobenswert, hängt aber ohne so ein Konstrukt wie RRC/TC etwas in der Luft...
Aber vielleicht stell ich mir das auch zu einfach vor.
Jedenfalls wäre ein Tracecache wohl wirklich eine Plausible Erklärung dafür dass 4 fach reinkommt (über die Decoder) und der Dispatch plötzlich 8 ausliefern will.
Derartiger Übereifer ist zwar lobenswert, hängt aber ohne so ein Konstrukt wie RRC/TC etwas in der Luft...
@Opteron
Was bedeutet das jetzt genau?
Das man ein Design, was 8 Instruktrionen (= 8 µOps) pro Takt abarbeiten muss/kann, nur ein Decoder braucht der 4 µOps pro Takt abarbeiten kann?
Was bedeutet das jetzt genau?
Das man ein Design, was 8 Instruktrionen (= 8 µOps) pro Takt abarbeiten muss/kann, nur ein Decoder braucht der 4 µOps pro Takt abarbeiten kann?
Was ist dann der Vorteil eines Einfachdecoder der 1 Ausgang hat und einem Double Decoder mit einem Ausagang? Wo ist dann der vorteil vom Double-Decoder mit nur einem Ausgang?Nö, der 4fach Double Decoder kann laut Patenten nur immer 4 µOps weiterleiten, die 4 Doppelblöcke haben nur je 1 Ausgang.
Triskaine
Lt. Commander
- Mitglied seit
- 19.01.2009
- Beiträge
- 105
- Renomée
- 12
Opteron
Redaktion
☆☆☆☆☆☆
Lol .. mann .. wieso haben wir das bisher übersehen, David Kanter von realworldtech hat auch nen Bulldozer Artikel online. Da gehts ans Eingemachte.
Den RRC hat er zwar nicht mit in der Grafik, aber sonst gibts viele Details und er erwähnt zumindest nen "loop detector" in nem Satz, damit sollte er den RRC meinen, da es beim Branch Predictor dabeisteht:
Aber egal, weiter:
Zur vorherigen Diskussion, ob die 2 AGUs reichen schreibt er:
Edit:
Triskaine war schneller, hab solange gebraucht, da ich beschlossen hab das zusammenzufassen. Mitten beim Lesen bekam ich nen Datenbankfehler von rwt und nicht war deshaalb nicht sicher, ob er den Artikel gerade wieder offline nimmt ^^
Deswegen ist die Reihenfolge der Stichpunkte auch umgekehrt, war schon auf der zweitletzten Seite ^^
ciao
Alex
Den RRC hat er zwar nicht mit in der Grafik, aber sonst gibts viele Details und er erwähnt zumindest nen "loop detector" in nem Satz, damit sollte er den RRC meinen, da es beim Branch Predictor dabeisteht:
Klingt aber trotzdem etwas konfus .. für die Prediction bzw. der Behebung falscher Vorhersagen bracht man dann schon nen vollen RRC / Trace Cache, da hilft kein Loop Detektor und den gabs auch erst im Core2, nicht im Pentium M.However, they were extremely coy about the predictors used in Bulldozer, other than to indicate that they did not use multi-level predictors. It is possible that AMD included a loop detector, something Intel introduced in the Pentium M.
Aber egal, weiter:
Zur vorherigen Diskussion, ob die 2 AGUs reichen schreibt er:
Zu den Dispatch Windows:The scheduler feeds memory operations into the two AGUs responsible for address generation. While this is a decrease from the prior generation, there are reasons to suspect this may not be catastrophic. The original K8 had a totally in-order memory pipeline, while Istanbul had a non-speculative out-of-order memory pipeline – loads could only move ahead of stores known to have a different address. Bulldozer improves this further with a dependence predictor that will determine when loads can speculatively pass stores. This latter technique is referred to as memory disambiguation by Intel and first showed up in the Core 2 Duo. Second, some macro-ops are of the form ‘load-op-store’ and only do address generation and translation for the load, and re-use that work for the ending store. Third, it’s possible that for 256-bit AVX instructions, the address generation is only done once, and that the second macro-op simply adds a 16B offset to the address of the first macro-op.
Zum "enhanced mode", ist das vielleicht das ?:The Instruction Byte Buffer (IBB) is the last stop before decoding and acts as the decoupling queue between fetch and decode. Accordingly, there are two IBBs, one dedicated per core. Each IBB contains 16 entries, sometimes called dispatch windows. Each window holds 16B of x86 instructions, thus the total IBB capacity is 256B per core.
Der Rest in Stichpunkten:The decode phase for Bulldozer, shown in Figure 3, has been improved, but the changes are far less dramatic than for fetching. The decoding begins by inspecting the first two of the 16B windows in the IBB for a single core. In many circumstances, instructions can be taken from both windows, but there are restrictions based upon alignment, number of loads and stores, branches, and other factors which can restrict decoding to a single 16B window.
- 4cycle Latency für den L1D$ (stand das schon im Open64 Compiler ?) ziemlich viel für nur 16kB -> das gibt nen hohen Takt ...
- 18-20 cycles Latency für den L2D$ (aus dem Open64 Comp).
- The FP cluster can execute two 128-bit loads per cycle
- Die "MMX" Teile sind u.a. LD/Str Durchgangsstationen
- FMAC Unit 1 macht auch noch XOP,
- FMAC Unit 2 macht auch noch XBAR (hääää):
Pipeline 1 also serves double duty and contains the crossbar hardware (XBAR) used for permutations, shifts, shuffles, packing and unpacking.
- Shared 60 entry FPU scheduler. This is roughly 50% larger than the reservation stations for Istanbul (42 entries) and almost double Barcelona's (36 entries). The heart of the cluster is a pair of 128-bit wide floating point multiply-accumulate (FMAC) units on P0 and P1. Each FMAC unit also handles division and square root operations with variable latency.
- Unified 40 entry ALU/AGU scheduler
- ALU0: Üblicher INT Krams plus POPCNT, LZCOUNT + unpipelined integer divider.
- ALU1: Üblicher INT Krams plus fused branches + pipelined integer multiplier
- 128 entry retirement queue,
- 96 Entry INT Pysical Rregister File
- 160 Entry FP PRF
- Fetching is "effectively multi-threaded with single cycle switching between threads"
- Bulldozer has mechanisms to repair the return stack, avoiding this (Anmerung:Istanbul's) corruption issue and decreasing return mispredictions; a feature first seen in Nehalem.
- Loop Detektor
- Interlagos mit Valencia verwechselt
- XBAR ??
Edit:
Triskaine war schneller, hab solange gebraucht, da ich beschlossen hab das zusammenzufassen. Mitten beim Lesen bekam ich nen Datenbankfehler von rwt und nicht war deshaalb nicht sicher, ob er den Artikel gerade wieder offline nimmt ^^
Deswegen ist die Reihenfolge der Stichpunkte auch umgekehrt, war schon auf der zweitletzten Seite ^^
ciao
Alex
Zuletzt bearbeitet:
Triskaine
Lt. Commander
- Mitglied seit
- 19.01.2009
- Beiträge
- 105
- Renomée
- 12
Hier noch meine zusammengefasste Meinung zu der IPC-Diskussion, zuerst hier gepostet:
This IPC discussion is grating on my nerves, it's time for some factual analysis, instead of conjecture:
Datapoint 1: Yorkfield has an average 7 % IPC advantage over Deneb
proofed here by comparing the Q9650 and the PhII X4 945, both at 3 GHz
Datapoint 2: Nehalem has an average 7 % IPC advantage over Yorkfield (without Turbo or HT)
proofed here by comparing i7-965 and the QX9770
Datapoint 3: Sandy Bridge has an average 12 % IPC advantage over Nehalem
calculated from the leaked benches and the Anandtech preview
(not as exact as the other two Datapoints, because the existing comparisons are suboptimal)
Ergo, to match Sandy Bridge's IPC Bulldozer would need an approximate IPC boost of 30 % over Deneb (1.07 * 1.08 * 1.12 ~ 1.30) and that is indeed an unrealistically high jump.
However, with Barcelona AMD achieved an IPC boost of 15-18 % with relatively few major enhancements to the architecture and considering that the core/module architecture gets a huge overhaul in Bulldozer (as can be seen in this article by David Kanter), an IPC boost of 15-20 % is not an unrealistic proposition for Bulldozer.
A boost of at least 12,8 % is already confirmed by the "50 % over Magny-Cours" statement, however, because of the shared architecure the behavior in single thread situations will be different, with a greater boost to be expected.
So while it is very probable that BD won't match Sandy on IPC, an IPC for BD on the level of Nehalem and maybe a bit above is not a totally unreasonable expectation.
Statement: Should the actual IPC of BD "completely suck" [sic], I give you alle every right to knock AMD for it, for a duration of 5 years after this Statement evaluetes to TRUE.
Zuletzt bearbeitet:
nazgul99
Grand Admiral Special
- Mitglied seit
- 01.05.2005
- Beiträge
- 3.592
- Renomée
- 224
- Standort
- Irgendwo in der Nähe
- Mein Laptop
- ThinkPad Edge E145 / 8GB / M500 480GB / Kubuntu /// Asus U38N / 6GB / Matt / Postville / Kubuntu/W8
- Prozessor
- AMD A10-7800
- Mainboard
- MSI A88XI AC
- Kühlung
- Scythe Shuriken Rev.2
- Speicher
- 2x 8GB DDR3-2133
- Grafikprozessor
- IGP
- Display
- HP LP2465, MVA, 1920x1200, 24"
- SSD
- Samsung 850 EVO 500GB
- HDD
- ST9500325AS 500GB
- Optisches Laufwerk
- ja, so'n USB-Dings
- Soundkarte
- onboard, optisch -> SMSL Q5 PRO -> ELAC EL60
- Gehäuse
- Silverstone ML06B
- Netzteil
- SST-ST30SF
- Betriebssystem
- Kubuntu
- Webbrowser
- Firefox
- Verschiedenes
- Synology DS414slim 3x 1,5 TB RAID5
Triskaine: Meinst du IPC oder Performance bei gegebener Verlustleistung? Da Bulldozer dem Vernehmen nach ein Hochfrequenz-Design wird, kann IPC auch gleich bleiben (oder nur leicht steigen oder sinken), wenn der Takt (bei gleicher Verlustleistung) entsprechend steigt.
Triskaine
Lt. Commander
- Mitglied seit
- 19.01.2009
- Beiträge
- 105
- Renomée
- 12
Triskaine: Meinst du IPC oder Performance bei gegebener Verlustleistung? Da Bulldozer dem Vernehmen nach ein Hochfrequenz-Design wird, kann IPC auch gleich bleiben (oder nur leicht steigen oder sinken), wenn der Takt (bei gleicher Verlustleistung) entsprechend steigt.
Ich meine damit tendenziell die Single-Thread performance, wobei IPC natürlich mehr als nur das ist.
Um AMD's Willen hoffe ich doch stark auf einen annehmbaren Sprung, so ca. 15 %, ansonsten müsste AMD schon mit 5,0+ GHz anrücken um mit Sandy Bridge konkurrieren zu können.
Ähnliche Themen
- Antworten
- 17
- Aufrufe
- 2K
- Antworten
- 19
- Aufrufe
- 3K
- Antworten
- 0
- Aufrufe
- 822