Bulldozer rollt an....

Status
Für weitere Antworten geschlossen.
BR: wie immer ignorierst Du, wissentlich oder aus purer Dummheit (sorry, anders kann ich mir das nicht erklären), jegliche weiteren Faktoren wie etwa den der iGPU zugestandenen TDP-Anteil oder wie die Planung bei ausgesehen haben könnte (worüber wir nichts wissen und auch nichts erfahren werden). Nebenher ein kleiner Vergleich: die um-die-400-Shader-GPUs Radeon HD 5550, 5570 und 6570 sind sämtlich mit 600 MHz +/- 10% getaktet. Und im Notebook-Llano läuft die iGPU trotz sicher sehr bescheideneem TDP-Rahmen - auch in der 35W-APU - mit 444 MHz!

Also Diskussion Ende, zurück zu dem Punkt, der angezweifelt wurde: die GPU ist nach SOI portiert.

Mein Einwand dabei: die Next-Generatin-Variante (vergess das Kürzel immer: nach VLIW4) aber noch nicht - zumindest nicht final. VLIW4 dürfte dank Trinity wohl (so gut wie) fertig sein.
 
Also ich bin der Rookie, aber seiferts Aussage zu " ab 28nm alles Bulk" hat er global getroffen. Denke das koennte so kommen. Frag doch mal einer den fruehe!
 
65nm SOI war für AMD schlecht und jetzt ist 32nm SOI auch müll, ist doch logisch das AMD mit dieser negativen Erfahrung evtl. bald auf bulk umsteigen wird, nicht umsonst fertigt Intel alle Prozessoren in Bulk, wozu braucht man SOI?

Zum glück erreicht man noch 3,6Ghz Basistakt, nicht schlecht bei den aktuellen 32nm Yields, es kann später nur noch besser werden, BD könnte in einem Jahr 4,5Ghz erreichen!

Und warum denken einige immer noch das Bulldozer eine enttäuschung wird, wegen OBR oder China Fakes?

Ihr glaubt doch nicht im ernst das die IPC schlechter wird *lol* Dann hätte man ja gleich ein 8 Kern K10 mit überarbeiteten Frontend & aktuelle SSE instrucktionen bauen können....*noahnung*

In Multithreading sollte ein FX8150 auf Westmere 6C/12T Augenhöhe liegen, was soll daran so schwer sein *noahnung*
 
Zuletzt bearbeitet:
BR: wie immer ignorierst Du, wissentlich oder aus purer Dummheit (sorry, anders kann ich mir das nicht erklären)...

So antwortet nur jemand, der etwas nicht versteht oder verstehen will. Du willst nur das glauben, was dir passt. Kann man machen, ist aber nicht unbedingt besonders intelligent.
 
...

In Multithreading sollte ein FX8150 auf Westmere 6C/12T Augenhöhe liegen, was soll daran so schwer sein *noahnung*

Bald werden wir sehen wie schwer oder leicht das ist fuer BD. Aber ich denke, dass BD es insgesamt packen sollte.
 
65nm SOI war für AMD schlecht und jetzt ist 32nm SOI auch müll, ist doch logisch das AMD mit dieser negativen Erfahrung evtl. bald auf bulk umsteigen wird, nicht umsonst fertigt Intel alle Prozessoren in Bulk, wozu braucht man SOI?

Und Bulk 40nm war anfangs keine Enttäuschung als es nach langer Zeit mal da war? Ein Geschäft auf Entäuschungen auszurichten wäre meiner Meineung nach falsch. Und nich umsonnst forscht Intel an seinem bulk Prozess herumm und ist nicht ganz mit TSMC bulk vergleichbar.
 
In Multithreading sollte ein FX8150 auf Westmere 6C/12T Augenhöhe liegen, was soll daran so schwer sein *noahnung*

Wie das gehen soll, ist mir ein Rätsel. Hier haben wir einen Prozessor, der 8T kann, dort einen, der 12T kann - dementsprechend müsste bei Gleichstand im Multithreading der 8T Prozessor den 12T Prozi in der Leistung um 50% übertreffen. Ich bin zwar ein gläubiger Mensch, aber daß AMD die Leistung eines knapp 1000€ teuren Intel Prozessors für ein Drittel des Preises bietet, glaube ich nun wirklich nicht.
 
Wie das gehen soll, ist mir ein Rätsel. Hier haben wir einen Prozessor, der 8T kann, dort einen, der 12T kann - dementsprechend müsste bei Gleichstand im Multithreading der 8T Prozessor den 12T Prozi in der Leistung um 50% übertreffen.
Wo ist das bitteschön ein Rätsel? Nehmen wir mal an, dass ein Thread auf einem Bulldozer Modul genauso schnell ist wie ein Thread auf einem Gulftown Kern. Dann ergibt sich folgendes:

Bulldozer:
1M / 1T = 100%
1M / 2T = 180% (CMT)
4M / 8T = 720%

Gulftown:
1C / 1T = 100%
1C / 2T = 120% (SMT)
6C / 12T = 720%

Also ich könnte mir vorstellen, dass es solche Fälle geben wird. Ob das Zambezi im Schnitt schafft, darf sicherlich bezweifelt werden.
 
Wie das gehen soll, ist mir ein Rätsel. Hier haben wir einen Prozessor, der 8T kann, dort einen, der 12T kann - dementsprechend müsste bei Gleichstand im Multithreading der 8T Prozessor den 12T Prozi in der Leistung um 50% übertreffen. Ich bin zwar ein gläubiger Mensch, aber daß AMD die Leistung eines knapp 1000€ teuren Intel Prozessors für ein Drittel des Preises bietet, glaube ich nun wirklich nicht.
zuviel intelwerbung geschaut?

die 6 ht threads bringen etwa 120% leistungs eines echten kerns ;)
also stehen ~7,2 intelkerne gegen ~7,2 bulldozerkerne
 
Rev C - Family 15h Model 1x Stepping x (x = [0..F]) - konnte Pille sein
Sieht danach aus, angeblich bekommt die neue Rev. ein schönes IPC Plus:

The first one is that there is a new stepping coming, SemiAccurate is hearing mid- to late Q1/2012 for the next rev. That rev is said to bump performance, specifically integer performance, up by quite a bit, and possibly improve clocks too.
http://semiaccurate.com/2011/09/07/bulldozer-finally-shipped-last-week/

Eventuell mit der Grund, wieso sie Komodo fallen lassen, das Ding wäre eher überflüssig, wenn eh schon ne AM3+ Version mit Piledriver kommt. Klar den Anwender würde es vielleicht freuen, aber AMD hätte doppelte Arbeit/Kosten.
 
Ge0rgy schrieb:
Als "Whimpy Core" würde ich einen BD-INT-Kern nun dennoch nicht bezeichnen, trotz 2-issue.
Das frontend ist viel zu fett und das OoO-Window zu groß um ihn ernsthaft mit In-Order-Designs zu vergleichen...
Zu den AGU&ALU-Erweiterungen, ich denke ähnlich.
Und nein ein Wimpy-Core ist BD nicht. Nur wird y33H@ für die Aussage "Single-Thread-Leistung ist King" schief angefahren.
Ich stelle jetzt mal eine Hypothese auf:
Ein 4-Kern-Prozessor mit einer "Single-Thread-Rechenleistung" von "5" müsste theoretisch "20" erbringen.
Ein 8-Kern-Prozessor mit einer "Single-Thread-Rechenleistung" von "3" müsste theoretisch "24" erbringen.
Trotzdem wäre mir der 4-Kern-Prozessor lieber.
Bei SpecIntRate wird bei einem 4 Kern-Prozessor 4 Instanzen des gleichen Programms gestartet, wie realitätsnah ist das denn?

Man muss einfach sehen, wieviel Hirnschmalz stecke ich in den Kern und wieviel in die Interconnects.
Ich sag jetzt mal -> Core-Rennen ist vorbei.
BDver2 mit 20 Cores pro Sockel und 80 Cores bei einem Quad-Socket-System ist das Ende der Fahnenstange (mMn). Oracle geht zurück (für DB-Server ist Single-Thread-Leistung bei Einfügeoperationen wichtif). IBM geht zurück (vgl. Power6 vs Power7).

Intel hat diesmal das Extrema ausgelassen (die Frequenzlektion hat gereicht, die Multi-Core-Lektion lernt jetzt AMD).

Lynxeye schrieb:
Zur Erinnerung: alle drei Monate kommt ein neuer Linuxkernel in dem jedes mal viele von ähnlichen Problemen behoben werden. Und hier in Dresden sitzt ein ganzes Team von Kernelentwicklern, die dafür bezahlt werden solche Probleme zu lösen.
Toll, dann hat man das OS fit für 40 Kerne. Und dann darf man nach und nach alle Applikationen anpacken und optimieren. Apache, Postgre, memcached - eigentlich hätte ich erwartet, dass die Skalieren - das sind jetzt nicht mal unskalierbare Anwendungsbereiche und trotzdem geben sie sich so die blöße. Hat man aber einen breiten Kern - dann läuft der eben auf dem breiten Kern.
Und mal auf das Diagramm Seite 8 geschaut?
memcached skaliert im optimierten zustand mit 0,4, Apache mit 0,7, Postgre mit 0,7 -> da gibt es einiges an Reibungsverlusten.
Gehen wir zum oberen Beispiel mit dem 4 Kerner und 8 Kerner.
Angenommen eine Applikation hat bei einem 4-Kerner eine Skalierung von 0,9 und bei einem 8-Kerner eine Skalierung von 0,8.

Vergesst mal die Reibungsverluste bei den Interconnects nicht. Da ist ein breiterer Kern nicht so ineffizient, wie er auf dem Papier erscheinen mag - viele Applikationen sind nach wie vor schwer skalierbar. Diejenigen Probleme, die leicht skalierbar sind, wandern sowieso auf die GPU. Und der GPU-Treiber kommt heute schon mit 800 Threads zurecht ;)

Grüße,
Tom
 
Ich sag jetzt mal -> Core-Rennen ist vorbei.
Solange man nicht am physikalischen Minimum angelangt ist, was die Strukturgrößen betrifft, eher nicht.
Bis runter zu ~10nm bekommt man noch ne ganze Menge Transistoren zusätzlich nachgeworfen, irgendwo muss man die unterbringen.
Mit den APUs gibts sowieso ein drastisches "Kernwachstum", wenn man da die Shaderkerne, als "Kern" zählen will ;-)
 
zuviel intelwerbung geschaut?

die 6 ht threads bringen etwa 120% leistungs eines echten kerns ;)
also stehen ~7,2 intelkerne gegen ~7,2 bulldozerkerne

Nunja falls man den amd angaben blind vertraut *buck*
Oder gibts da schon benches die des belegen?
 
@ddb
Ich fand auch die Arbeit von Hofstee und seinem Cell Prozessor klasse:
http://www.hpcaconf.org/hpca11/slides/Cell_Public_Hofstee.pdf
Nur hat sich da heraus gestellt, das InOrder dann halt doch zu schmal ist.
Kommt auf den Applikationsmix an. Wenn er sehr spezifisch ist, gibt es Anwendungsfelder. Sonst würde keiner auf die Idee kommen, eine Firma zu gründen, um Server mit vielen Atoms, ARMs oder Tileras zu bauen.

Hier fehlt jetzt das Paper mit den Power/Performance-Kurven bei 2way-InO, 2way-OoO, 4way-OoO etc. Mit denen konnte ich kürzlich ein paar Kollegen recht leicht nachvollziehbar die wesentlichen Unterschiede zwischen einigen CPUs inkl. ARM verdeutlichen.

In deinem Excel-Sheet lässt sich ja auch kein SMT einstellen, oder der Ansatz mit den zwei Int-Cores des Bulldozer.
Wenn nach meinem Financial Genetic Programming Pet Project mal wieder Zeit ist, mache ich da weiter. Es handelt sich bei dem Sheet um ein Schätzeisen für CPU-Leistung als Basis für eine Spielidee.

In der Realität angekommen finde ich dann wieder dieses Paper klasse:
"An Analysis of Linux Scalability to Many Cores"
http://pdos.csail.mit.edu/papers/linuxsdi10.pdf
Und dieses Paper sagt mir:
"au Backe, ab 40 Kernen ist ende im Gelände mit den heutigen Betriebssystemen und Anwendungen"
Wichtig ist, auf mehrere unabhängige Untersuchungen zu schauen, sonst muss ich hier mal das Hyperpipelining-Paper von Intel (eine echte Praxisfirma!) herausholen ;)

Aber ich stimme zu, dass nicht alle Apps beliebig parallelisierbar sind. Mittlerweile ist diese Frage auch nochmal neu zu bewerten, da es auch um die Software und neuere Techniken geht und sich da mit OpenCL, Virtualisierung, DVFS (Power Management), spezialisierte Cores, rekonfigurierbare Architekturen, Tiles usw. noch genug Entwicklungsfelder gibt.


Google höchst selbst sagt ja:
"Brawny cores still beat wimpy cores, most of the time"
http://static.googleusercontent.com...earch.google.com/en/us/pubs/archive/36448.pdf

Deshalb sehe ich eine Notwendigkeit darin in größeren Kernen zu denken(als Advokat für größere Kerne zu agieren). Die vielen kleinen Kerne können ja dann in der GPU sitzen - so sieht man es ja auch bei AMD.

Ich finde den Ansatz CMT auch klasse, nur hätte ich dann nicht die Int-Cores so schmal gemacht. Aber vllt. kommts ja doch noch anders.
Wie wäre es mit Adaptivität? Das erwähne ich ja auch schon eine Zeit lang. Gerade gab es auch eine neue veröffentlichte Patent Applikation: ALUs für FP-Berechnungen nutzen, falls die FPU noch schläft (power gated -> viele Zyklen Aktivierungszeit, BTW hat Sandy Bridge auch so eine 100 Zyklen Phase, wo die FPU erstmal auf 50% der Leistung läuft).

Nur sagt eben wieder Pollack's Rule, dass für verdoppelten Einsatz (Transistoren bzw. Power) etwa 40% mehr Leistung herausspringt. Und die oben erwähnten Kurven sind auch nur ein Ergebnis davon.

Bei SpecIntRate wird bei einem 4 Kern-Prozessor 4 Instanzen des gleichen Programms gestartet, wie realitätsnah ist das denn?
Stimmt natürlich. Das zeigt eher das Potenzial, wenn man da mehrere VMs laufen lassen würde.


Man muss einfach sehen, wieviel Hirnschmalz stecke ich in den Kern und wieviel in die Interconnects.
Ich sag jetzt mal -> Core-Rennen ist vorbei.
BDver2 mit 20 Cores pro Sockel und 80 Cores bei einem Quad-Socket-System ist das Ende der Fahnenstange (mMn). Oracle geht zurück (für DB-Server ist Single-Thread-Leistung bei Einfügeoperationen wichtif). IBM geht zurück (vgl. Power6 vs Power7).

Intel hat diesmal das Extrema ausgelassen (die Frequenzlektion hat gereicht, die Multi-Core-Lektion lernt jetzt AMD).
Man kann die Interconnects auch ganz nah an die Kerne holen und adaptiv gestalten -> Rekonfigurierbarkeit, TRIPS/EDGE (AMDs Charles R. Moore war da auch dran). Dann kann man ein paar x86-Int-Kerne, ein paar x86-FPUs (sind nicht einfach durch Shader ersetzbar), und ein paar GPU-Shader zusammenlegen. Und was man nicht braucht, schaltet man ab.

Und bei AMD habe ich irgendwie nicht die Vorstellung und damit Befürchtung, dass die ähnlich zu einer Auto-Tuning-Bude erstmal rumschrauben, einen Chip haben und dann schauen, was der so erreicht. Die machen ihre Hausaufgaben für 5-10 Jahresprojekte. Anders kann man da gar nicht überleben.

Toll, dann hat man das OS fit für 40 Kerne. Und dann darf man nach und nach alle Applikationen anpacken und optimieren. Apache, Postgre, memcached - eigentlich hätte ich erwartet, dass die Skalieren - das sind jetzt nicht mal unskalierbare Anwendungsbereiche und trotzdem geben sie sich so die blöße. Hat man aber einen breiten Kern - dann läuft der eben auf dem breiten Kern.
Und mal auf das Diagramm Seite 8 geschaut?
memcached skaliert im optimierten zustand mit 0,4, Apache mit 0,7, Postgre mit 0,7 -> da gibt es einiges an Reibungsverlusten.
Gehen wir zum oberen Beispiel mit dem 4 Kerner und 8 Kerner.
Angenommen eine Applikation hat bei einem 4-Kerner eine Skalierung von 0,9 und bei einem 8-Kerner eine Skalierung von 0,8.

Vergesst mal die Reibungsverluste bei den Interconnects nicht. Da ist ein breiterer Kern nicht so ineffizient, wie er auf dem Papier erscheinen mag - viele Applikationen sind nach wie vor schwer skalierbar. Diejenigen Probleme, die leicht skalierbar sind, wandern sowieso auf die GPU. Und der GPU-Treiber kommt heute schon mit 800 Threads zurecht
Hier wird eher deutlich, dass man immer wieder mit Kompromissen zu tun hat. Denn die brawny cores brauchen auch mehr Energie/Befehl zur Erfüllung der Aufgaben. Das kommt ganz einfach durch die quadratisch oder kubisch im Aufwand steigenden Logiken wie Scheduler, Registerfile etc. Nur SMT kann hier etwas retten.

Wenn man es genau nimmt, ist SMT eine Form der Adaptierbarkeit.
 
Also langsam aber sicher geht mir der Thread hier irgendwie auf die Nüsse... jeden Tag sind mind. 2 neuen Seiten gepostet, aber die Fülle an Neuinformationen pro Seite beläuft sich auf etwa 0,1%... da könnte man den Thread auch einfach mal absacken lassen...
 
Also langsam aber sicher geht mir der Thread hier irgendwie auf die Nüsse... jeden Tag sind mind. 2 neuen Seiten gepostet, aber die Fülle an Neuinformationen pro Seite beläuft sich auf etwa 0,1%... da könnte man den Thread auch einfach mal absacken lassen...
Wo sollen die News auch herkommen?

Edit: Ich hab's: Man muss sie suchen ;) Z.B. OS6204WKT4GGU Quadcore Bulldozer für $355 (Googlecache hilft) http://bit.ly/ns9Kon
Muss echt für High Frequency Trading oder sowas sein bei dem Preis. Man denke an die 4100er Opteron-Preise.
 
Zuletzt bearbeitet:
Wo sollen die News auch herkommen?

Edit: Ich hab's: Man muss sie suchen ;) Z.B. OS6204WKT4GGU Quadcore Bulldozer für $355 (Googlecache hilft) http://bit.ly/ns9Kon
Muss echt für High Frequency Trading oder sowas sein bei dem Preis. Man denke an die 4100er Opteron-Preise.
Naja, ich sags doch: Wenn es keine News gibt, muss man den Thread nicht bis zum Erbrechen volltexten... ich schau hier fast nur noch 1x die Woche rein (in den Thread), damit ich jedes mal genervt wieder rausgehe.
 
Wo sollen die News auch herkommen?

Edit: Ich hab's: Man muss sie suchen ;) Z.B. OS6204WKT4GGU Quadcore Bulldozer für $355 (Googlecache hilft) http://bit.ly/ns9Kon
Muss echt für High Frequency Trading oder sowas sein bei dem Preis. Man denke an die 4100er Opteron-Preise.

Stimmt im Cache von smsassembly.com steht.
AMD Opteron 6204 OS6204WKT4GGU 4-Core Server CPU
Be the first to own AMD's next generation 4-Core 6200 Series processors.
In stock, can ship today.

hm... der große AMD Opteron 6276 OS6276WKTGGGU 2.3GHz - 16 Core für $1175.00 .. das ist auch nicht viel Geld.

Gruß Lehmann

Dahin ging also mein Paket ;)
 
Zuletzt bearbeitet:
Zu den AGU&ALU-Erweiterungen, ich denke ähnlich.
Und nein ein Wimpy-Core ist BD nicht. Nur wird y33H@ für die Aussage "Single-Thread-Leistung ist King" schief angefahren.
Ich stelle jetzt mal eine Hypothese auf:
Ein 4-Kern-Prozessor mit einer "Single-Thread-Rechenleistung" von "5" müsste theoretisch "20" erbringen.
Ein 8-Kern-Prozessor mit einer "Single-Thread-Rechenleistung" von "3" müsste theoretisch "24" erbringen.
Trotzdem wäre mir der 4-Kern-Prozessor lieber.
Bei SpecIntRate wird bei einem 4 Kern-Prozessor 4 Instanzen des gleichen Programms gestartet, wie realitätsnah ist das denn?





Grüße,
Tom

Hi...

in dem Beispiel kommt es hauptsächlich auf den Anwendungsschwerpunkt an. Wir hatten das vor Jahren doch schon mal..Dualcores mit 3.0 - 3,33 Ghz Taktfrequenz - Quadcores mit 1,8 - 2,6 Ghz Taktfrequenz....Betrifft jetzt nicht die IPC aber eben das was beim Anwender hinten rauskommt> der Takt...
Damals haben viele gesagt (sinngemäß): > "wenn die Singlethread Leistung nicht zu unterirdisch ausfällt ist mir der kleinere Quadcore lieber." Ander waren der Meinung, dass eh keine Anwendung was mit so vielen Threads anfangen kann und blieben beim hochtaktenden Singlecore/Dualcore..Fällt dir was auf? ;)

Also so ähnliche Diskussion hatten wir schon mal. Es dauerte seine Zeit bis man die Vorteile bei den Mehrkernern auch nutzen konnte. Es gibt da für alles irgendwo eine "Grenze". Wenn man incht ganz so ins Extreme geht. Klar, wenn die IPC sehr stark unterschiedlich ist hilft es nix wenn man beliebig viele Cores dranhängt, bezogen auf den Bulldozer uzd der Vorgänger Phenom II wäre aber schon ein Fortschritt wenn die IPC Edit: Performance (/meinetwegen auch durch höheren Takt) gleich bleibt bei steigender Coreanzahl und gleichbleibender TDP bei besserer Effizienz in Idle und Teillast..

Es handelt sich ja erstmal um den "ersten" Wurf der neuen Architektur und das oben genannte ist auf jeden Fall besser als ein Phenom II X6 1200T ;) - den man als Alternative anbieten könnte ;)
.
EDIT :
.

Naja, ich sags doch: Wenn es keine News gibt, muss man den Thread nicht bis zum Erbrechen volltexten... ich schau hier fast nur noch 1x die Woche rein (in den Thread), damit ich jedes mal genervt wieder rausgehe.

Och ich finde das unterhaltsam. Zwischen den Zeilen liest man doch immer wieder Informationen *noahnung*

MfG
 
Zuletzt bearbeitet:
Jungs... das Ganze ist hochgradig interessant.... Aber eigentlich OT...

Die Kerndiskussion unter Einbeziehung vpn Pollacks Rule, Fertigugnstechnischen Grenzen bei Takt & Spannungen (letztere ist ja immerhin quadratisch), und das alles noch gewürzt mit Powergating und Energieeffizienz-Diskussionen (kleine kerne lassen sich einfacher schlafenlegen/Aufwecken als große...)
Bezieht noch die ILP mit ein damit die Brawny Cores nicht mal eben 10-issue OoO werden usw.
Super... liebend gerne...
aber dann bitte in einem anderen Thread.

Ich verfolge den Thread täglich, und die aktuelle Diskussion ist hochspannend... aber ich kann auch p4z1f1st ein wenig verstehen, dass es für nicht täglich hier weiterscrollende leute etwas schwirig ist, die infos zu finden unter den unkenrufen des einen und den erklärungs-/rechtfertigungsversuchendes anderen lagers... *noahnung*
Also bitte führt die Diskussion weiter...aber woanders... ;)
 
Zuletzt bearbeitet:
zuviel intelwerbung geschaut?

die 6 ht threads bringen etwa 120% leistungs eines echten kerns ;)
also stehen ~7,2 intelkerne gegen ~7,2 bulldozerkerne

Ich will Dir ja nicht zu nahe treten, aber angepeilte Gegner und Preis des FX8 sind eindeutig nicht Westmere zuzuordnen und zu erwarten, daß Westmereleistung für 35% des aktuellen Preises zu bekommen sei, hat etwas von der recht bekannten Rechnung einer jungen Agrarproduktvertreiberin. Soviel zu den 7,2 Kernen.
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten