Sun UltraSPARC T2

64-faches Multithreading... krass.
 
:o - und wieviele Prozzis werden dann in einer T2-Maschine verbaut -

und: wer soll dass bezahlen, wer ... ;)

bis denn
m.
 
http://www.sun.com/smi/Press/sunflash/2006-04/sunflash.20060412.2.xml?cid=155

Die Informationen sind derzeit noch recht dünn, gesichert ist:

- 64-faches Multithreading pro Prozessor
- SMP fähig
aus dem obigen Link: http://www.opensparc.net/pubs/preszo/06/HotChips06_09_ppt_master.pdf

S. 5:
8 Sparc cores, 8 threads each = 64
711 Signal I/O, Rest Power & GND

Es gibt also Applikationen, die davon profitieren könnten bzw. eine Sparc Core bricht nict ein, wenn er 8 Threads gleichzeitig zu managen hat.
Schon interessant ...
 
Es gibt also Applikationen, die davon profitieren könnten bzw. eine Sparc Core bricht nict ein, wenn er 8 Threads gleichzeitig zu managen hat.
Schon interessant ...
Is ja auch hauptsächlich für Webserver gedacht. Die brauchen auch keine starke FPU. Das war ja das große Problem am T1...
 
@Sonic
Is ja auch hauptsächlich für Webserver gedacht. Die brauchen auch keine starke FPU. Das war ja das große Problem am T1...

??? Irgendiw sehe ich das Problem nicht ganz. Für Webserving braucht man kein FP Monster. D.h. der T1 war/ist adequat dafür. Ein T2 Chip hat zwar mehr FP Power als ein T1 Chip aber das liegt eher daran, dass Sun seine Server auch in anderen TLP Nischenmärkten verkaufen will. Die gesteigerte Single-Thread Performace tut ein übriges.


@rkinet
bzw. eine Sparc Core bricht nict ein, wenn er 8 Threads gleichzeitig zu managen hat.

8-fach Threading heist noch lange nicht, dass alleThreads auch gleichzeitig ausgeführt werden! Ein T2 hat pro Core zwei Execution Pipes, d.h. von den acht Threads sind nur zwei aktiv, der Rest liegt schlafen um im natürlich auftretende Latenzen (Cachemiss, Pipe-Stall, etc.) besser ausnutzen zu können => T2 ist auf Durchsatz ausgelegt.
 
@Sonic
??? Irgendiw sehe ich das Problem nicht ganz. Für Webserving braucht man kein FP Monster.
Hab ich doch geschrieben: "Is ja auch hauptsächlich für Webserver gedacht. Die brauchen auch keine starke FPU."

Und dass die jetzt die FPU verbessert haben (im Gegensatz zu der verkrüppelten im T1) is doch nur Wünschenswert...
 
@Sonic

Ist nicht bös gemeint. Ich verstehe nur nicht worauf du dich bei dem Satz "Das war ja das große Problem am T1..." beziehst.
 
@Sonic

Ist nicht bös gemeint. Ich verstehe nur nicht worauf du dich bei dem Satz "Das war ja das große Problem am T1..." beziehst.
Einfach nur, dass der T1 n Schwäche für Gleitkomma-Ops hatte. Mehr nicht... Aber da er eh zumeist in Webservern schlummert, ist diese Schwäche nicht ausschlaggebend...
 
Is ja auch hauptsächlich für Webserver gedacht. Die brauchen auch keine starke FPU.
Nicht nur webserver, die Wissenschaftler stehen schon in den Startlöchern und warten auf den T2. Davor haben Sie schon mal auf dem T1 multithread Erfahrungen gesammelt:

http://www.rz.rwth-aachen.de/computing/hpc/hw/niagara.php
Why installing a machine which is only capable of delivering some 100 MFlop/s in a compute environment dominated by technical applications?

On the first sight, this does not seem to fit well. But we want to be prepared for future technologies. For sure future multi-threading processors will be capable of executing floating point operations at the same rate as the Niagara processors executes integer opterations today.

So ein T2 wäre wohl auch für Simap interessant ;D ;)

ciao

Alex
 
Dann hole ich mal die mehr oder minde Off Topic Diskussion aus dem K10 Thread rüber:
Geht eigentlich um Niagara3, d.h. Victoria Falls, aber ist ja auch noch einigermaßen ontopic ;-)
Ich vermag das Wahrscheinlichste nicht zu sehen. Am unwahrscheinlichsten hingegen kommt mir eine HyperTransport-Lösung (und auch eine J-Bus-Lösung) vor.
Naja, also da bleibt dann aber eben nur PCIe über, oder noch Sun-Eigenlösung X.

Hast Du eigentlich eine Ahnung, wie so die CPU Entwicklung abläuft ? Hier hat man ja nen schönen Überblick über Suns Aktivitäten:

SRkYxMnAXe9PPCo.JPG

Torrenza 2 und Geneseo wurden erst Ende September vorgestellt, dass sollte für Victoria Falls so oder so zu spät gewesen sein, deswegen meine Vermutung auf Eigenbau JBus. Ausser Sun hätte schon davor mit den betreffenden Leuten geredet. Das ist bei Intel / Geneseo unwahrscheinlich (geneseo wär sonst ja schon fertig), bei AMD möglich, aber irgendwie war mir der Sun Kommtar zu "überrascht":
"We are excited about AMD's common socket initiative because it opens up a whole new set of possibilities in systems design, but we aren't prepared to discuss any specific products using this at this time," said Sun's server chief John Fowler.
http://www.theregister.co.uk/2006/09/22/ibm_power7_opteron/

Naja für Rock könnte es gereicht haben,aber wieviel Sinn mach das, wenn man 2 unterschiedliche Systeme bei 2P und 4P verwendet ...allerdings geht es ja auch um 2 unterschiedliche Chips (Victoria Falls / Rock).

ciao

Alex
 
Zuletzt bearbeitet:
Desti schrieb:
Die Informationen sind derzeit noch recht dünn, gesichert ist:

- 64-faches Multithreading pro Prozessor
- SMP fähig

Gut zu wissen, dass die SMP-fähigkeit gesichert war :-)

Auch Sun kocht also nur mit Wasser.
.
EDIT :
.

Opteron schrieb:
Geht eigentlich um Niagara3, d.h. Victoria Falls, aber ist ja auch noch einigermaßen ontopic ;-)
Torrenza 2 und Geneseo wurden erst Ende September vorgestellt, dass sollte für Victoria Falls so oder so zu spät gewesen sein, deswegen meine Vermutung auf Eigenbau JBus.

Irgendwo fehlt mir da noch ein Faden.

Torrenza und Geneso sind Konzepte mit denen Coprozessoren möglichst effektiv an den Prozessor gebunden werden sollen? Wo soll da der Bezug zum T3 sein? Und wo gibts eine geraffte Specification zum jbus?
 
Torrenza und Geneso sind Konzepte mit denen Coprozessoren möglichst effektiv an den Prozessor gebunden werden sollen?
CoProzessoren, oder eben auch normale Prozessoren, es wird ein Koheränz(zusatz)protokoll unterstützt, dass gültige Speicherinhalte sicherstellt (Da muss man sich ja drum kümmern, wenn mehrere CPUs auf den Hauptspeicher zugreifen). Welcher Typ Prozessor da auf das RAM zugreift ist egal, ob jetzt Co-Prozessor oder normal-Prozessor, beidemal braucht man das Koheränzprotokoll.
Wo soll da der Bezug zum T3 sein? Und wo gibts eine geraffte Specification zum jbus?
T3 aka Rock, sind als SMP CPUs angekündigt, mindestens 4P. Dazu braucht man eben irgendwas zum Zusammenkoppeln, und dazu gabs vor ein paar Monaten Spekulationen auf theregister und theinquirer, dass AMDs Hypertransport verwendet werden würde. Den register link hab ich oben schon gepostet, der inquirer link:
http://www.theinquirer.net/default.aspx?article=38470 (allerdings für den Power7 Chip)
http://www.theinquirer.net/default.aspx?article=32854

Aber bei beiden Quellen weiss man ja nie so wirklich, wie sicher das ist, deswegen kann man da schön spekulieren ^^

JBUs Infos gibts bei Sun, google mal, hab ich letzte Woche auch gemacht, gibt Treffer, urls hab ich leider nicht mehr.

Edit: @Wasser kochen: Kann sein, dass der Victoria Fall damals noch als T2 SMP Chip lief, bin mir aber nicht 100% sicher.

ciao

Alex
 
Opteron schrieb:
CoProzessoren, oder eben auch normale Prozessoren, es wird ein Koheränz(zusatz)protokoll unterstützt, dass gültige Speicherinhalte sicherstellt

Ok, geschnallt. Wenn aber ein cohärenter HT-Link zwei Prozessoren koppeln kann und HT ein offenes Protokoll ist - warum dafür Torenza?


Danke!
 
Ok, geschnallt. Wenn aber ein cohärenter HT-Link zwei Prozessoren koppeln kann und HT ein offenes Protokoll ist - warum dafür Torenza?
Der kohärente Protokollteil war vor Torrenza nicht Bestandteil der offenen HT Spezifikation. Ist er auch immer noch nicht, aber wenn man eben torrenza "beitritt" bekommt man von AMD die entsprechenden Infos.

Hier mal die Kopie aus dem K10 Thread:
Beim Thema Entwicklung muss ich mal wieder ins off-topc abdriften und an Sun erinnern. Im andren Thread hab ich ja die Roadmap von denen gepostet ... die hatten letztens fast alle halben Jahre ein Tape-Out: Niagara2 -> Victoria Fall -> Rock wie schaffen die das, haben die 3 Entwicklerteams ?
Was ich bisher selber gefunden habe .. Sun hat die Multicore Chips von nem Startupübernommen, dass sie aufgekauft hatten: Afara Websystems: http://www.theregister.com/2003/02/25/suns_niagara_is_sparc/ Das Entwicklerteam wirds also weiterhin geben, dazu kommen dann die "alten" Sparc Entwickler, also mindestens ein weiteres Team .. macht schon mal 2 ;-)

ciao

Alex
 
Zuletzt bearbeitet:
Soo, erste Victoria Falls Details sind draußen, Genaueres (hoffentlich) Morgen:

http://www.theregister.co.uk/2007/08...alls_hotchips/

Kurzzusammenfassung:

- Wie erwartet ist der der Chip ist dem Niagara2 sehr ähnlich: 8 Kerne, 8fach SMT -> 64 threads pro Chip

- Es wird auch 4P Systeme geben, bisher wurde nur von 2P gesprochen, d.h. eine "Kiste" schafft 256 threads .. nicht schlecht.

- die integrierte 10 GbE Ethernet Schnittstelle wurde gestrichen, wahrscheinlich um Platz für den Chip-Interconnect zu machen.

Edit:
Weitere Infos hier:
http://blogs.cnet.com/8301-13512_1-9763911-23.html?tag=recentPosts
since VF is designed to support up to quad-chip configurations only (with external support chips)
Also kann man ein "glueless" Design wie z.B. Hypertransport ausschließen, hört sich eher nach Sun Eigenentwicklung an.

ciao

Alex
 
Zuletzt bearbeitet:
... Also kann man ein "glueless" Design wie z.B. Hypertransport ausschließen, hört sich eher nach Sun Eigenentwicklung an. ...
In der Branche versteht man unter "glueless", dass kein externer weiterer Chip notwendig ist, um Datenströme der CPU nach aussen zu führen.

In so fern sind ein XLR-Prozessor von RMI, ein Power6, DEC 21364 und manch ein anderer Prozessor schon glueless. Lediglich die Anbindung unterscheidet sich von Fall zu Fall.

Sun spricht explizit von einer SerDes-Schnittstelle, die sich auf verschiedenste Art und Weise variieren lässt. Der Partner Texas Instruments hat da eine Reihe von Protokollen und fertige Designs dazu in der Hand.

Aber HyperTransport als Victoria-Falls Chip-Interconnect glaube ich allerdings auch nicht.

MFG Bobo(2007)
 
In der Branche versteht man unter "glueless", dass kein externer weiterer Chip notwendig ist, um Datenströme der CPU nach aussen zu führen.
Ok, ich hatte das Wort nur noch von der Opteron / Hypertransportwerbung im Hinterkopf. Da wurde ja betont, dass man eben keine zusätzlichen Chips ("Glue") zum Zusammenschalten der CPUs benötigen würde. Wenn das aber jetzt branchenweit etwas anders definitert ist .. ok ;-)

Sun spricht explizit von einer SerDes-Schnittstelle, die sich auf verschiedenste Art und Weise variieren lässt.
Wo ? Die Quelle kenn ich wohl noch nicht ^^
Hypertransport ist jetzt auf alle Fälle gestorben, dafür bräuchte man eben keine Zusatzchips.

Edit:
Wieder was gefunden:
The expansion into two-way and four-way systems poses a challenge for the chip's memory management.

Data can now be stored in either external memory or on another chip's cache memory. But, as the chip is forced to fetch data from outside the processor, overall performance can slow down significantly.

Sun plans to address these memory challenges by adding multi-chip coherence links that will route the processor to its externally stored data.

The two-way Victoria Falls chips are equipped with two so-called 'embedded coherence hubs' allowing data transmission rates of 65Gbps.

The four-way model offers double the amount of embedded coherence hubs, allowing for twice the transmission rate. The four-way systems also gain four external coherence hubs.

A two-way system performing an online transaction processing application will perform at a rate of 180 per cent of a single processor system, Sun claimed.

A 'Java Business' benchmark came in at 185 per cent and 'CPU intensive' application logged 192 per cent. Sun did not provide performance projections for its four-way systems.
http://www.vnunet.com/vnunet/news/2197040/sun-eyes-256-threaded-server
Hört sich in meinen AMD gewohnten Ohren irgendwie nach einer Art Horus an, aber ist sicherlich was andres ^^

ciao

Alex
 
Zuletzt bearbeitet:
Uuups ...

Das kommt davon, wenn man viel liest, aber dann doch nicht alles in seinen Artikel reinpackt.

texasinstruments_sun_serdes-interface_niagara2.jpg

Quelle

Für mich klingt das so, als ob dort die Multisockel-Baustelle von Sun liegt und mit SerDes schon eine Antwort haben, wenn der 8b/10b Layer von dem GB-LAN-Protokoll intern wegfällt, dann käme schon in etwa die erwähnte Datenrate von 60-65 Gigabit pro Sekunde heraus.

MFG Bobo(2007)
 
Zuletzt bearbeitet:
Für mich klingt das so, als ob dort die Multisockel-Baustelle von Sun liegt und mit SerDes schon eine Antwort haben, wenn der 8b/10b Layer von dem GB-LAN-Protokoll intern wegfällt, dann käme schon in etwa die erwähnte Datenrate von 60-65 Gigabit pro Sekunde heraus.
Jupp hört sich plausibel an. Die haben also ihren Standard Serializer/Deserializer Baustein (SerDes) und schalten dem dann nur die benötigte "Protokollmaske" (oder wie immer man das nennen will) davor. Eigentlich ganz praktisch ... und auch interssant, dass man die ganzen unterschiedlichen Interfaces so über einem Kamm scheren kann ;-)

Sieht man aber auch schön hier, alles SerDes (FSR, ESR, PSR) Komponenten sind da recht gleich:
Niagara2-4.gif


Das gesamte untere, rechte Eck, samt MAC, fällt dann wohl weg. Der Platz sollte doch für ein SMP Unit reichen ;-)



Im Nachhinein witzig: Die Kopplung erfolgt also indirekt gesehen doch über den Ethernet Port, wer hätte das gedacht ;D

ciao

Alex
 
Zuletzt bearbeitet:
Habt ihr schon das aktuelle Prozessorgeflüster der c't gelesen? Selten, dass dein ein Prozessor so bejubelt wurde: http://www.heise.de/ct/07/18/038/default.shtml Die Werte:

SPECint_rate_base2006

UltraSparc T2 (1,4 GHz):
78,3​
IBM Power 6 (4,7):
53,2​
Xeon X5355 (2,66):
52​
Opteron 2222 (3 GHz):
24,3​
Itanium 2 (1,6):
29​


SPECfp_rate_base2006

UltraSparc T2 (1,4 GHz):
62,3​
IBM Power 6 (4,7):
51,5​
Xeon X5355 (2,66):
36,2​
Opteron 2222 (3 GHz):
24,5​
Itanium 2 (1,6):
36,2​


Beeindruckend!
 
Zuletzt bearbeitet:
Zurück
Oben Unten