R1100 Spekulationsthread

Die Gerüchte sind Müll, die entstammen alle einer Meldung vom 3d-center die den Gedanken hatte, wie könnte ein möglicher R1100 Chip aussehen. Außer Ausdenken ist da nix dran.
 
Ich erwarte keine Wunder sondern eher etwas vergleichbares wieder Schritt HD5000 zu HD6000. Der Rest wird dann eventuell durch neue Spiele gemacht werden, die direkt auf GCN optimiert sind (siehe Dirt Showdown)

Einen HD 5000 --> HD 6000 Schritt erwarte ich mir nicht.
In diesen Schritt bekommt der HD 6000 2 getrennte Grafik-Engines. Dabei wurde gegenüber dem HD 5000 nur die Tesselation-Unit verdoppelt und in 2 Grafik-Engines geteilt, weil im großen HD 5000 mit Rasterizer, Gemotrie & Vertex Assambler & Z eh schon alles doppelt vorhaden war.

HD 7900 hat mit 2 Grafik-Engines über Command-Processor eigentlich eh den selben Front-End-Aufbau.

Da die CU von HD 7900 einen eigenen Sheduler hat, sollten eigentlich mehr CU pro Grafik-Engine möglich sein.

Nicht umsonst gibts gerüchte, wo der HD 8800 ein HD 7800 mit 16-20 statt 10 CU pro Grafik-Engine geben könnte.
http://www.tomshardware.de/Radeon-HD-8870-8850-Oland,news-248146.html

Bei einem HD 8900 könnte aus meiner Sicht es drei Wege geben, die etwas aus der Luft gehölt sind.
a) 20(-25) CUs pro Grafik-Engines
b) 3 Grafik-Engines mit je 16-CUs
c) 4 Grafik-Engines mit je 10-12 Cus (Aufteilung wie HD 7800 mit 10 CUs pro Grafik-Engines)

Grundsätzlich kann man GCN wie R600 sehen, wo nach der Architektur-Einführung die Shader & Co Einheineiten bei RV770 bei gleichen Front-End erheblich gesteigert werden konnte. Wenn wenn wenn das Front-End ähnliche Reserver wie zu R6x0-Zeiten, dann könnte mit HD 8800 eine überraschung auf uns zukommen.

Nvidia konnte ja auch die Shaders nach G80-Einführung erheblich steigern.
G80 ... 2x8 pro SM
GT200 3x8 pro SM
Fermi-GF100 .... 2x16 pro SM
Fermi-GF104 .... 3x16 pro SM
Kepler-GK104 ... 6x16 x2 pro SMX ... Normaltakt
(Kepler-GK104 ... 3x16 x2 pro SMX ... "Hochtakt-Äquivalent" wie zu SM-G80/GT200/GF100-Ära)

(PS: SMX bewusst falsch geschrieben, da man das Shader-Verhältnis so besser sehen kann. Der 2er kommt wegen der doppelten TMU-Einheiten beim SMX gegenüber SM. SMX bekam die doppelte Anzahl der TMU, fals ich das auf die Schnelle jetzt richtig rausgelesen habe.)

Da Nvidia schon länger an dieser Architektur arbeitet und somit die Architektur schon etwas ausgereizt sein kann, wäre beim GCN "2.0" (ich würde GCN 1+ (= Weiterentwicklung der 1. Generation) nennen) @ HD 8x00 ein größeren Sprung im Bereich des Möglichen und eine Überraschung möglich.
 
Zuletzt bearbeitet:
@aylano
Du sprichst von einer Zunahme der Shader (und/oder der Grafik-Engines).
Um den Gerüchten wenigstens etwas abzugewinnen, müsste aber die Flächeneffizienz signifikant gesteigert worden sein (Pitcairn ist hier bspw. dem GK106 bereits ein Stück voraus). Kannst du plausibel darlegen woher diese Steigerung stammt? Wie sollten die Chips dazu noch günstiger anzubieten sein?
 
@aylano
Du sprichst von einer Zunahme der Shader (und/oder der Grafik-Engines).
Um den Gerüchten wenigstens etwas abzugewinnen, müsste aber die Flächeneffizienz signifikant gesteigert worden sein
Keine Ahnung was du mit Flächeneffizienz-Steigerung meinst.

Es gibt 2 Arten von "Flächen-Effizienzgewinn".
a) Flächen-Effizienzgewinn des der GPU-Elemente (Front-End, Shader & Co, CU, ...)
Das wäre ein Flächen-Effizienz-Gewinn in der Architektur

b) Flächen-Effizienzgewinn des gesammten Dies --> Front-End & Co hat genügend Reserven für only mehr Shader & Co (= CU)
Das wäre ein Flächen-Effizienz-Gewinn mit einer neuen Die-Konfiguartion bzw. Einheiten-Optimierung

Ich hatte mal so 5,5 bis 6,0 mm² aus den HD 7x00er rausgemessen.
http://www.tomshardware.de/fotostrecken/Image1,0101-352950-0-2-3-1-png-.html

Die Steigerung von 10-CUs (von 20 auf 30/32 bzw. 10-CUs auf 15-16-CU pro Grafik-Engines) und sonst nichts innerhalb eines HD 78x0 würde eben genau in die 212 + 60mm² = 272mm² (270-280mm² bzw. ~270mm²) reinpassen. Somit deutet das auf eine Flächen-Effizienzsteigerung durch die Einheiten-Konfigurations-Optimierung hin.

Oder quasi ein HD 7970 ohne GPGPU-Einheiten.

Dass es Flächen-Effizienz-Architektursteigerungen gibt wie im Falle HD 4870 (RV770) und HD 6970 (RV970) ist gut möglich. Laut meinen Informationen hat AMD da zwei GPU-Architektur-Teams.
Das erste Team (R600-DX10, R8x0-DX11, R10x0-GCN) bringt immer die neue Architektur bringt und das zweite Team (R7x0, R9x0, R11x0) nimmt eine Architektur-Flächeneffizienz-Optimierung vor und macht gleichzeitig eine Einheiten-Konfigurations-Optimierung.

Während R7x0 genug Front-End hatte, konnte mit der Flächenoptimierung der Shader & Co massiv an Shader & co dazugegeben werden.
Ob im R9x0 noch Front-End-Reserven vorhanden sind, kann man bzw. ich nicht sagen. Denn mit VILW-4 statt VILW-5 wurde die Flächeoptimierung der Shader & Co wahrscheinlich nicht nur für zweite die Tesselation-Einheit genutzt, sondern die zweite Tesselation-Einheit benötigte noch mehr Fläche und Stromverbrauch, wodurch eine Shader & Co Einheitensteigerung überhaupt nicht möglich war.
Mit dem Umstieg von einem Big-Grafik-Engine auf 2 mittlere Grafik-Engines dürfte R9x0 mit höheren Front-End-Reserven pro Rasterizer & Co für die Zukunft etwas vorbereitet worden sein. Nicht umsonst sind beim R10x0 die CUs dann von 12 auf 16 gestiegen.

Jetzt könnte sich eine Frage stellen, ob HD8900 jetzt 3 (oder 4 ) Grafik-Engines mit je 10-14-CUs haben wird, oder eine weitere Steigerung von 4 CU alias 16 auf 20 CUs.

Vor paar Jahren (3-4 Jahren) gab es auch Gerüchte, dass AMD die High-End-GPU aus 4-Units/Dies und Low-End mit 1-Unit/Die und Mainstream mit 2-Unit/Die bald macht. Es wäre nicht das erste mal, dass überwältigende Gerüchte dann doch Jahre später in die Realität schaffte.
Der Vorteil liegt dann an der Herstellerung von nur 1. Front-End (Grafik-Engine), die für alle Bereiche (low-End, Mainstream , Performance, High-End) genutzt werden kann.
Damit kann die GPU vielleicht auch mit viel weniger Aufwand als früher in die iGPU für Kaveri & Kabini & Dritte bzw. neue Spezial-Chips eingebaut werden, da nur der Command Processor für 1, 2 oder 3 Grafik-Engines auslegt/entwickelt werden muss. Vielleicht gibts bald auch 4 Grafik-Engines, aber ich denke vorerst kann AMD mit den CUs etwas variable sein alias 10-16-Stück.

@HD 89x0

Es gibt ja Gerüchte von 2560 Shaders für den HD 89x0
Das entspricht eine Steigerung von 8CU von 32 auf 40.
Damit wäre 3 Grafik-Engines nicht möglich.
4-Grafik-Engines wären auch ein verdammt großer Schritt.

Eine logische und risiko-loserer Übergang auf den Weg zur 4-Grafik-Engine-Ära wäre wie bei HD 4870 --> HD 5870. Das HD 5870-Front-End = Big-Grafik-Engine bekam einen 2. Rasterizer & 2. Geometrie-Assember und 2. Vertex-Assember hinzu. Also, zwei Big-Grafik-Engines, die je 20 CUs aufnehmen können. Diese Variante würde mich an Wenigsten Überrachen bzw. diese würde ich am meisten von allen erwarten, da sie mit Big-Grafik-Engine statt Normalo-Grafik-Engine (HD 4870 --> HD 5870)schon Erfahrung in diese Richtung haben.

Falls die Zukunft doch nicht 4-Grafik-Engine heißt, dann werden vielleicht "nur" doppelt so große/Fähige Rasterizer & Vertex & Geometrie & Co verbaut.
 
Zuletzt bearbeitet:
Dein genanntes (b) schließt (a) mit ein.
Flächeneffizienz meint vorrangig eine Steigerung der FLOPS/mm² bei gegebenem Verbrauch; im Gamer-Bereich an Stelle der FLOPS ein Index-Wert, gebildet aus einer Reihe von Testszenen aus bestimmten Spielen/Grafikapplikationen.
Mehr CUs -> mehr Transistoren, mehr Fläche, bei gleicher Herstellung, gleichem Takt und gleicher Spannung -> höhere Leistungsaufnahme -> insgesamt gleiche "Effizienz"
Nach den Gerüchten werden aber 21% mehr Transistoren auf 27% mehr Fläche verbaut, um die FLOPS um 75% (SP) respektive 60% (DP) zu steigern.

Da frage ich mich:

1. Angenommen deine Ausführung stimmt, müsste das Frontend des Pitcairn bereits überdimensioniert sein?

2. Welche Architekturverbesserungen (a) sind damit von GCN2 zu erwarten?

3. Warum sollte AMD einen größeren und leistungsfähigeren Chip billiger verkaufen? Oder wären die niedrigeren Preise der Karten auf billigeren Speicher und ein günstigeres Board-Layout zurückzuführen?

Zusammengenommen halte ich signifikante Steigerungen der Flächeneffizienz außerhalb von Verbesserungen in der Fertigung für nicht unmöglich, habe aber so meine Zweifel, dass mit zunehmender Entwicklung der Architektur gegenüber einem bereits ausgereiften Design die 20-30% Mehrfläche auch in deutlich mehr als 20-30% Spiele-Mehrleistung resultieren kann. Toll wäre das natürlich schon, wenn sich das Gerücht bewahrheiten sollte, und die höheren FLOPS sich auch proportional in der Spieleleistung niederschlagen würden.
 
Wenn du die Transistoren dichter packst, kannst du auch auf der selben Fläche mehr davon unterbringen.
dass aber 21% mehr Transistoren eine >60%ige Leistungssteigerung abwerfern ist unwahrscheinlich, ausser man hat aktuell ein recht ineffizientes Design.
 
@Ge0rgy
Laut dieser (etwas dubiosen /fake?) Tabelle würde die Packdichte sogar leicht abnehmen (1.21/1.27 = .95).

Dass Pitcairn garnicht so ineffizient sein kann, bzw. sogar mit zu den effizientesten Designs am Markt (sowohl Fläche als auch Stromverbrauch) zählt, sagt mir
1) die Relation zu den anderen Designs des Hauses
2) die Relation zu den Konkurrenzchips GK106 und GK104, die beide weniger flächen- und "leistungseffizient" sind.
 
Wenn bei der vorherigen Entwicklung das Transistorbudget begrenzt war und im Zuge der Entwicklung sich erst neue Möglichkeiten erkannt wurden, heißt das doch nicht, dass das Design ineffizient war.
Jetzt hat man die Möglichkeit die erkannten Flaschenhälse zu beseitigen.
Dazu braucht es dann ja nicht allzuviele Transistoren. Zudem wwissen wir ja auch nicht, wieviel Transistoren an anderer Stelle eingespart werden konnten.
Eine Gamer GPU ohne GPGPU Fähigkeiten, wie es NVIDIA vorgemacht hat, wär schon interessant.
Nur habe ich meine Zweifel, dass die Preise so niedrig sein werden.
Will AMD keinen Preiskrieg mit NVIDIA, werden sie die Karten entsprechend ihrer Leistung einpreisen.
Oder AMD hat jetzt wirklich die Chance durch guten Yield und massenhaft verfügbarer Produktionskapazität durch einen guten Preis mal wieder ordentlich auf sich aufmerksam zu machen.
 
Dein genanntes (b) schließt (a) mit ein.
Ja, aber es geht um Entwicklungs-Hauptprioritäten.
b) ist Abhängig von a). Die große Frage ist, wo es große Potentiale bzw. Reserven gibt.
Gibts noch Reserven im Front-End --> b) mehr CU Einheiten

Gibts noch Entwicklungs-Resevern in CU (kleinere Fläche pro CU) = a) --> Darausfolgend können noch weitere CU-Einheiten verbaut werden.

Gibts noch Entwicklungs-Reservern in Front-End = a) --> mehr CU-Einheiten nur möglich, wenn Front-End dadurch kleiner wird.

Gibts keine Entwicklungs-Reserven in Front-End = a) --> nicht mehr CU-Einheiten möglich, da Front-End größer (= höherer Stromverbrauch) wurde, aber die Zukunft bzw. den nächsten Fertigungsnode berücksichtigt.

PS: Vielleicht ist es eben kein Zufall, dass das Architektur & Konfigurations-Optimierungs-Team ihre Produkte im Refresh-Jahre des Fertigungs-Node herausgibt, während die Neue Architektur immer mit dem neuen und unreifen Fertigungs-Node dahertanzt, deren Einheiten-Konfiguration sich auch nach der erwartenden Fertigungs-Reife orientiert und somit ein Kompromiss darstellt(en kann)

Flächeneffizienz meint vorrangig eine Steigerung der FLOPS/mm² bei gegebenem Verbrauch
Da gäbe es dann auch
c) neue Architektur-Typs
d) neue kleinere bzw. verbesserte Fertigung (= höher Takt, weniger Reserve Transistoren, ...)

Deine Aussage über Flächeneffizient ist IMO ziemlich sehr allgemein bzw. non-detailiert.


Wenn du die Transistoren dichter packst, kannst du auch auf der selben Fläche mehr davon unterbringen.
dass aber 21% mehr Transistoren eine >60%ige Leistungssteigerung abwerfern ist unwahrscheinlich, ausser man hat aktuell ein recht ineffizientes Design.
21% Transistoren hört sich Wenig an, aber bei einer Packdichte von so 11-12 Mio. Transistoren pro mm², kann man mit +10 CU auf 600 Mio. (11*5,5*10) kommen.
Die 600 Mio. würden die +21% von 2,8 auf 3,4 Mrd. entsprechen.

Wie ich schon meinte, das könnte sich ausgehen, wenn man beim 8800 nur 10 CU-Einheiten einpflanzt. Bei 12CU müssten ein paar Einheiten oder die Fertigung verbessert werden, was mit 50-100 Mio. Transistoren auch nicht unrealistisch wäre.
--------
Ein gutes Beispiel ist ja auch RV840 und RV870. RV840 entspricht quasi exakt die Hälfte von RV870. Sowohl in den Einheiten (inkl. Front-End-Aufbau sowie SIMD), als auch in den mm² (166 vs 333 mm²) und Transistoren (2150 vs 1040 Mio)
Damals war HD 5870 70-80% schneller als HD 5770.
heute ist HD 7970 35-40% schenller als HD 7870.
(Dies entspricht auch das Verhältnis der SIMD-Unterschiede 100% bzw. 50%.)

Der Grund warum Pitcairn 20CU hat, liegt einerseits an der Möglichkeit an Thaiti mit möglichen 32CU und andererseits den Abstand zu Thaiti -35% bzw. +50%.
Dass Pitairn bei 20CU zwei Grafik-Engines hat, könnte ein Zeichen sein, dass eine aktuelle Grafik-Engine 20CUs bei weitem nicht auslasten kann und daher 2 aktuelle Nötig waren. Daraus Schlusfolgend muss man mit Front-End-Verbeserungen im HD8900 reichnen alias 2 Big-Grafik-Engines wo so 20CUs möglich sind.
 
Zuletzt bearbeitet:
Ich meine damit nur, wenn man mit so wenig Aufwand, so viel mehr Performance erreichen könnte, warum hat man das nicht gleich getan!?
Wenn ich mit 21% Transistoren +60% Performance herausholen kann, ist das eine Effizienz von 1:3 - Ergo, ich bin mit dem Klammersack gepudert das nicht sowieso zu machen. *noahnung*
 
Wenn man fast fertig ist, stellt man immer fest was man besser machen könnt. Meistens muß das Produkt aber raus und beim nächsten mal wird es besser; sonst wird man nie fertig.
Steht ja auch noch im Raum, ob nicht woanders Transistoren eingespart wurden, so dass z.B. für die +60% ohne die Einsparungen 50% mehr Transistoren verbraucht worden wären.
 
Wie auch immer, aber über die Hälfte Mehrleistung bei nur einem fünftel mehr Transistoren klingt zu schön um wahr zu sein...
Wenn man was anderes dafür einsparen kann, war es entweder überflüssig (soviel zur effizienz des Vorgängers) oder es fehlt die Leistung dann wieder an anderer Stelle.
 
Ich meine damit nur, wenn man mit so wenig Aufwand, so viel mehr Performance erreichen könnte, warum hat man das nicht gleich getan!?
Wenn ich mit 21% Transistoren +60% Performance herausholen kann, ist das eine Effizienz von 1:3 - Ergo, ich bin mit dem Klammersack gepudert das nicht sowieso zu machen. *noahnung*
Ich habe es im letzten Posting erst im Editieren erwähnt.

Der Grund könnte sein, dass sich Pitcairn sich völlig an Thaiti oriernierte.
Quasi soll Pitcairn 66% Performance von Thaiti bekommen.

Grundsätzlich muss man auch Rücksicht auf den Refresh nehmen.
Es kann sein, dass der HD 8900 eben ein neues Front-End benötigt und so das Level des High-End weiter nach oben Schraubt, während die HD 8800 eben mit dem alten Front-End die Einheiten-Konfiguration mit der höchsten Effizienz (so 15-16CU pro Grafik-Engine) nutzen kann.

Es kann einfach sein, dass AMD ein Front-End basteln muss, was in einer Generation im Bereich der höchsten Effizienz genutzt werden kann und in der anderen etwas uneffizienz. Der Grund kann einfach sein, dass der Aufwand für neue 3 Front-End pro Generation (und somit Jahr) einfach zu aufwendig ist.

So gesehen, dürfte das Front-End für Llano & Trinity momentan um 100% überdimensioniert sind.
Während
Llano 5 SIMD hatte, konnte HD 5870 10 SIMD pro Normalo-Grafik-Engine verbaut wurden.
Trinity hat 6 SIMD, während HD 6970 12 SIMD pro Grafik-Enigne verbaut wurden.
Wenn dann 16 CUs pro Grafik-Engines möglich sind, dann dürfte das Front-End von Kaveri nochmehr überdimenstioniert sein, da es wohl kaum 8 CUs erhalten wird, oder auch nicht.
Aber beim Kaveri-Nachfolger @ 20nm könnte eventuell dann das Volle Potential mit 16 CUs pro Grafik-Engines genutzt werden, wenn vorallem wenn Kaveri 8 CUs haben mag.
In 20nm würde ich eine CU auf 4mm² einschätzen, was mit 4mm² x 8 = nur 32nm² entspricht.

Wie auch immer, aber über die Hälfte Mehrleistung bei nur einem fünftel mehr Transistoren klingt zu schön um wahr zu sein...
Wenn man was anderes dafür einsparen kann, war es entweder überflüssig (soviel zur effizienz des Vorgängers) ...
Auch wenn ich mich wiederholen mag, aber ich betone es nochmal.
Falls Pitcairn quasi ein HD 7970 mit aber nur 10 statt 16 CUs und non-GPGPU-Einheiten wäre, dann hat man sich R&D-Ressourcen erspart. R&D-Ressourcen sind bei AMD begrenzt, während man überflüssige Effizienz bzw. überflüssige mm² sehrwohl verkaufen kann. Vorallem, wenn man zumindestens gleichgute mm²- & Effizienz-Werte wie die Konkurrenz hat.

PS: Da HD 8970 vielleicht 2 Big-Front-End bekommen kann, könnte es quasi wieder etwas ineffizienter werden als gegenüber Thaiti, wo die CUs mit 16 Stück pro Normalo-Grafik-Engine effizienz ausgelegt sein dürfte. Aber dieser Front-End-ÜBERDimensionierung (=ineffiziente mm² bei Front-End) muss jetzt im Gesamt-Die auch nicht stark auffallen. Denn Thaiti ist mit den ganzen GPGPU-Einheiten in Games sowieso nicht Effizienz ausgelegt, sodass diese Ineffizinez eben nicht so wirklich auffällt. Wenn man HD 6970 genauer ansieht, dann war die Ineffizienz durch die Überdimensionierung der zwei statt einem Grafik-Engine nicht so groß, wenn man berücksichtigt, dass GTX 580 das allermeiste der Effizienzsteigerung von so 15% aus dem 16 SM-Cluster bekam, welches bei GTX480 aufgrund Design-Problemen immer deaktiviert werden musste.

Aber wie Effizienz eine High-End-GPU ist, zeigt sich im Grunde nicht durch die eigene Konkurrenz infolge des Performance-Chips sondern durch die High-End-Konkurrenz. Und wie gut dieser ist, muss sich erst zeigen.
 
Zuletzt bearbeitet:
x% mehr Rohleistung != x% mehr Leistung ;)

Zwischen der 7870 und der 680 liegen 30-35%, auf sowas in der Richtung könnte es hinauslaufen.
 
x% mehr Rohleistung != x% mehr Leistung ;)
Jupp, wobei man die selben Effizienz von Rohleistung vs. Game-Leistung bei unterschiedliche Grafik-Engine-Anzahl sehen konnte.

HD 5870 70-80% schneller als HD 5770.
HD 7970 35-40% schenller als HD 7870.


Beide nutzen 35-40% von so ca. 50% der Zusätzlichen Rohleistung

Zwischen der 7870 und der 680 liegen 30-35%, auf sowas in der Richtung könnte es hinauslaufen.
Das meine ich auch, wie ich quasi von HD 7970 ohne GPGPU-Einheiten sprach, der dann auf Höhe 680 liegen kann.
Wobei die kleinere 256bit-SI statt 386-Bit-SI durch höhere Speichertakte kompensiert werden kann. L2 kann gleich bleiben, das L2-Cache AFAIK primär bei GPGPU was bringt.
 
Wenn man was anderes dafür einsparen kann, war es entweder überflüssig (soviel zur effizienz des Vorgängers) oder es fehlt die Leistung dann wieder an anderer Stelle.
Mit der Reifung der Fertigung kann durchaus einiges an Redundanzen eingespart werden ohne die Yields zu gefährden. Das muss nicht inneffizient gewesen sein zu Beginn der 28nm. Die Frage ist immer welche Effizienz den Vorrang hat -> Yield oder Leistung. Kann man die Leistung erhöhen und die Yield beibehalten trotz weniger Redundanz, fängt man ja nicht an den Chip kleiner zu machen. Man kann aber mehr funktionsfähige Transistoren verbauen.
 
Wie auch immer, aber über die Hälfte Mehrleistung bei nur einem fünftel mehr Transistoren klingt zu schön um wahr zu sein...
Wenn man was anderes dafür einsparen kann, war es entweder überflüssig (soviel zur effizienz des Vorgängers) oder es fehlt die Leistung dann wieder an anderer Stelle.
Es wird beim HD 8800 sogar 12,59 Mio. Transistoren pro mm² vermutetet.

Ich hatte die CUs mit 5,5 bis 6,0 mm² rausgemssen. Da die CUs (= 64 Cores + 4 TMU) die einzigen Einheiten (10*64 Cores = 640-Cores und 10*4 = 40 TMUs) sind, die Zusätzlich kommen, würden bei +58mm²-Die-Vergrößung eine CU qusi 5,8 mm² bedeuten.
Wenn man naive 12,59*58mm² rechnet, ergebe das +730 Mio. Transistoren. Zwar wird +600 Mio. Transistoren angegeben, aber aufgrund der Überdimensionierung liegt dies auf der Sicheren Seite.
Wer weiß, vielleicht wurde sogar noch etwas anderes mit paar zusätzlichen Transistoren verbessert z.B.B eine neue und etwas größeren/leistungsfähigere Tesselation-Unit oder UVD 4.0 oder was auch immer.

Fazit1:
So eine Die-Konfiguration wäre sogar ohne Transitor-Einsparungen möglich.

Fazit2:
Den Einzigen Fehler der mir auffällig bzw. das ich nicht erklären kann, wäre die Bandbreite, die zwar mit 1,5 Ghz angegeben ist, aber nur +25% bzw. 192 Gb/S Memory Bandbreite bringt. Aber das würde alle andren daten nicht in Frage stellen.
 
Zuletzt bearbeitet:
Ich bin schon sehr gespannt auf die OpenCL-Performance von R1100. ZeroCopy verringert den Overhead enorm. Machen wir mal ein Beispiel:

Ein Filter einer Bildbearbeitungssoftware benötigt eine Rechenzeit von 526ms auf einem Xeon 5506. Die OpenCL-Implementierung auf einer Tesla 2050 483ms. Nicht schlecht, aber das reißt niemanden vom Hocker. Wirklich Interessant wird es erst wenn man betrachtet wo die Zeit der OpenCL-lösung bleibt. Gut 80% gehen für Speichertansfers drauf.
execution_times.png
.

Man kann sich vorstellen welchen Performanceschub ZeroCopy hier bringen würde.
 
Zurück
Oben Unten