FPU CPU? CS301; 200MHZ=3GHz?

Bokill

Gesperrt
Mitglied seit
18.01.2002
Beiträge
5.689
Renomée
60
Standort
Bremen
Nette Meldung bei 3Dcenter aufgefunden.
Nette Darstellung der CPU selber auf
http://www.ttecx.de/hardwarereports/33_Clear_Speed_CS301_CPU/main.php

Blockdiagramm:
http://www.ttecx.de/hardwarereports/33_Clear_Speed_CS301_CPU/img/logo/block_diagramm.PNG

Zelle:
http://www.ttecx.de/hardwarereports/33_Clear_Speed_CS301_CPU/img/logo/block_diagramm_2.PNG

Übersichtsdiagramm:
http://www.ttecx.de/hardwarereports/33_Clear_Speed_CS301_CPU/img/logo/block_diagramm_1.PNG

Eigentlich ist die eher eine Co- Prozessoreinheit. Keine Ahnung wo so etwas gebraucht wird, aber eine Leistungskraft bei 200MHz zu erreichen die sonst bei 3GHz erreicht werden ist ja fast schon Gotteslästerung...
 
> Keine Ahnung wo so etwas gebraucht wird,

z.B. Rechnen mit grossen Matrizen, Digitale Signalverarbeitung, Geometriebeschleunigung bei Grafik.

> aber eine Leistungskraft bei 200MHz zu erreichen die sonst bei 3GHz erreicht werden ist ja fast schon Gotteslästerung...

Das Ding kann sehr viele Rechnungen gleichzeitig durchführen, aber ist für "normalen" Anwendungscode unbrauchbar, da die Programmsteuerlogik (Branching) zentral nur einmal vorhanden ist. Trozdem: Processing Element Arrays sind gewaltig im kommen.

Hatte ich zu dem Teil nicht schon mal was geschrieben? Genau, da: http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=123340&highlight=CS301
 
Zuletzt bearbeitet:
dann kann der Thread geschlossen werden.

ich mach mal ne Mitteilung.

Edit: Schon geschehen
 
Jo, das ist ja Wahnsinn! ... im Ergebnis ist so eine beeindruckende Performance aber zu erwarten, wenn man eine neue schlanke Architektur auf die Beine stellt, die keine Rücksicht auf bisherige Entwicklungen nehmen muss (Abwärtskompatibilität isdt halt nicht nötig).

Für alle c't Leser:
Ob das Ding auch das A20 Gate unterstützt ;D *lol*
 
Wir können ja mal ein speziellen Gedenkstein für das Gate A20 hier im Forum betonieren Seemann...

Ich meine ja nur...

Ich sach nur Heise Suchmaschine (oder auch hier) *gg*
 
Original geschrieben von Seemann
Jo, das ist ja Wahnsinn! ... im Ergebnis ist so eine beeindruckende Performance aber zu erwarten, wenn man eine neue schlanke Architektur auf die Beine stellt, die keine Rücksicht auf bisherige Entwicklungen nehmen muss (Abwärtskompatibilität isdt halt nicht nötig).

Für alle c't Leser:
Ob das Ding auch das A20 Gate unterstützt ;D *lol*

na, da steht aber, daß das teil x86 kompatibel sei.

bei solchen erfolgsmeldungen bin ich erst einmal immer skeptisch. physik läßt sich nämlich nicht so leicht überlisten (außer hier: http://www.daserste.de/dimensionpsi/gaensehaut_01.asp *lol*). simpel gesagt: um arbeit zu verrichten benötigt man (elektrische)energie, die umgewandelt wird in wärme (ebenfalls energie). verbessert man die effizienz (was nicht der ipc, sondern eher instructions pro watt wären - ist aber auch ungenügend, denn die frage ist ja, welche instruktionen...man müßte letztendlich messen, wieviel elektrische energie nötig wäre für einen bench...aber benches sind ja schon problem genug... :-) ) kann man sich zwar freuen, nähert sich aber zugleich einem weiteren schritt in richtung 100% effektivität. okay, davon ist man noch weit entfernt. aber, als bekanntes beispiel: die einführung von soi bei amd erhöht diese effizienz. der integrierte memory controller oder schnelleres ram oder mehr cache erhöhen zwar den ipc, aber noch lange nicht zwingend bzw. so stark die effizienz. die mehrleistung muß auf jeden fall bezahlt werden mit einem höherem stromverbrauch (weswegen ich ja auch vor langer zeit fragte, ob die mehrleistung einer hammer-cpu unter 64bit nicht auch zu einer höheren stromrechnung führen würde - eine antwort habe ich darauf nicht in erinnerung *enttäuscht*).

warum ich dies mal wieder so ausführlich darlege?

weil in dem text steht, bei 200mhz und 2watt leistungsaufnahme sei die cpu in der lage gleiches zu leisten wie ein p4@3ghz. halte ich für lächerlich! kann nur eine antwort auf dieses problem geben: die meinen 2watt pro fpu-recheneinheit, von denen es immerhin 64 in dem teil gibt. wenn es stimmt, daß das ganze teil nur 2watt braucht, dann haben die mehr als den nobelpreis verdient...

130nm cpu, knapp 2watt mal 64einheiten - ups, da sind wir ja wieder bei der technischen grenze, an der amd und intel hängen (amd: würden sie noch hängen mit dem xp ohne soi :-) ), nämlich bei rund 100-120w. komischerweise ähnliche werte, wie der itanium mit seiner starken fpu, bzw. seinen fpu-recheneinheiten. anders ausgedrückt: der ipw (kenne noch keine abkürzung für instructions per watt :] ) ist doch bei allen ähnlich.

und auch die tolle rechenleistung des wunderprozzies relativiert sich: jede einzelne fpu-recheneinheit ist doch vergleichbar mit einer fpu einheit auf einer intel bzw. amd-cpu. die athlon hat davon drei, macht also 64/3, in etwa 21 - hm, bei 200mhz kommt man sogar über 4000mhz. anders herum: 3fpu einheiten eines athlon64@2,ghz ergeben 6ghz, 64fpu-einheiten vom achten weltwunder ergeben schon über 12... klar kann man so simpel nicht rechnen, das weiß ich auch. dennoch muß man die von mir angesprochenen dinge m.e. beachten, bevor man rumtönt 200mhz leisten soviel wie 3ghz...ist echt verarsche meines erachtens bzw. dummheit der journalisten...

p.s.: da es ein ähnliches thema ist, bitte ich die herrschaften auch, meine frage hinsichtlich banias centrino zu beachten. thx. :-)

http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=135858
 
Zuletzt bearbeitet:
Stimmt Treverer... Da macht ne Firma auf, investiert Millionen, entwickelt ne CPU und belügt bei der vorführung alle um dann als lügner dazustehen und alles geld in den sand gesetzt zu haben.

Gott Menschen und ihre Verschwörungstheorien... Du bist bestimmt auch einer von denen die dem "DIe Ammis warn net aufm Mond"-Kult angehören.

Man wenn es bei manchen anwendnugen bei 2 watt und 200 mhz die leistung einer 3ghz cpu bringt sagt das dochnet das es das bei ALLEN anwendungen macht. warum sollten die lügen???

Wird sicher so sein das spezielle sachen so schnell sind der rest aber wohl nicht.
 
wenn dann werden nur FPU lastige Anwendungen schneller ablaufen, den rest kannst praktisch genausogut mit nem celeron machen und bist schneller *chatt*
 
Vielleicht wird jetzt jedem klar, das Takt bei weitem nicht alles ist. 8)

Ach ja: *massa* RiSC !
 
Ich kenn da noch so ein Monsterteil. Dem wurde bisher bei solchen Sachen auch extrem wenig beachtung geschenkt, es ist billig (jeder kann es haben) und die Rechenleistung ist bei ~200MHz auch brachialst höher als bei jeder aktuellen CPU.

Für solche Spezialfälle gibts eben immer sehr schnelle Lösungen, weil hier massiv paralellisiert werden kann - bei einer normalen CPU geht das net, da ist es schon gut wenn 3 Anweisungen parallel ablaufen. IdR ist es aber weniger als eine.



PS Ach ja - ich meinte oben übrigens die GPU auf jedermanns Graphikkarte :P
 
Nein, damit meinte ich nicht nur das ;)

Solche (gelungene) Experimente gab es früher schon, und solange man festlegen kann was gerendert wird kann man auch das mißbrauchen (aber der Pixelshader bzw. der Vertexshader bietet schon deutlich mehr möglichkeiten).

Mit einer Ge2 GTS hat man irgendwann mal erfolgreich Zellwachstum simuliert, dabei war das Geschwindigkeitsmäßig auch deutlich höher als es die damaligen CPUs schafften.


PS Was denkst du, wie teuer die FPU da oben ist? Dagegen ist die FX doch eher billigkram ;)
 
Original geschrieben von Desertdelphin
Stimmt Treverer... Da macht ne Firma auf, investiert Millionen, entwickelt ne CPU und belügt bei der vorführung alle um dann als lügner dazustehen und alles geld in den sand gesetzt zu haben.

Gott Menschen und ihre Verschwörungstheorien... Du bist bestimmt auch einer von denen die dem "DIe Ammis warn net aufm Mond"-Kult angehören.

Man wenn es bei manchen anwendnugen bei 2 watt und 200 mhz die leistung einer 3ghz cpu bringt sagt das dochnet das es das bei ALLEN anwendungen macht. warum sollten die lügen???

Wird sicher so sein das spezielle sachen so schnell sind der rest aber wohl nicht.

na, du bist mir aber ein knilch... :[

kannst du, außer blödsinnige unterstellungen, auch argumente bringen, so wie ich es getan habe für meine behauptungen? und/oder hast du andere gründe, z.b. andere postings von mir, die deinen schwachsi** unterstützen, welcher einer ich angeblich sei?

als würde es nicht zu hauf firmen geben, die etwas behaupten, was sich dann doch nicht bewahrheitet oder als würde es nicht genügend journalisten geben, die etwas falsch verstehen. habe ich denn gesagt, die firma lügt?

was deinen einwand betrifft "Wird sicher so sein das spezielle sachen so schnell sind der rest aber wohl nicht.":

was nützt mir den so eine fpu, die nur ganz spezielles schnell berechnet, z.b. nur die grundrechenarten? für manche bringt es ja vielleicht was, die berechnung z.b. der mandelbrotmenge in hardware zu gießen, denn das wäre unzweifelhaft schneller als jedes programm auf x86-cpu basis. nur wäre es blödsinn, bei solch einem spezialisierzten chip, davon zu sprechen, sie sei bei 200mhz so schnell wie z.b. ein p4@3ghz - und das bei nur 2watt.

na ja, wie dem auch sei: ich habe nur gesagt und begründet, daß ich es nicht glaube. ich habe keine verschwörungstheorien aufgestellt. bringe gegenargumente, dann können wir weiter reden...

angepi**t von sowas
rainer
 
Der CS301 wird von IBM in 130nm mit einem PBGA package gefertigt.
Er hat eine IO Spannung von 2.5V und eine Corespannung von 1.2V.
Bei einen Preis von 16500 Dollar ist er aber nichts für den kleinen Geldbeutel.

Mit so einer FPU kann man sehr viele Sachen machen:

Signal und Bildbearbeitung:
Proteinstrukturberechnung
Simulation von Biologischen Systemen
Internet Router und Switches
Für bildgebende medizinische Geräte
Radarbildbearbeitung
Etc.


MfG

Edit:
Die am meisten verkauften Mikroprozessoren sind nicht x86er, sondern spezialisierte RISC Chips.
Sie verrichten ihren Dienst unauffällig in Lenkwaffensystemen, Flugzeugen, Radaranlagen, Autos, Netzwerkkomponenten, Ultraschallgeräten, etc, etc, etc.
 
Zuletzt bearbeitet:
Original geschrieben von Desertdelphin
Stimmt Treverer... Da macht ne Firma auf, investiert Millionen, entwickelt ne CPU und belügt bei der vorführung alle um dann als lügner dazustehen und alles geld in den sand gesetzt zu haben.
Weiss nich, erinnert mich irgendwie an den Launch des neuen Apple *noahnung*
Ich mein es ist nunmal so, wir werden heute verarscht wo man nur hinsieht, warum sollte das gerade hier anders sein? Wichtig ist doch nichtmehr der Sinn oder die Leistungsfähigkeit eines Produkts, sondern wie man es vermarktet (gelle Herr Jobs?).
Chatt (der wo aber nicht weiter stören wollte und diese Diskusion auch nicht unterbrechen will)
 
Original geschrieben von MaxPower

Die am meisten verkauften Mikroprozessoren sind nicht x86er, sondern spezialisierte RISC Chips.
Sie verrichten ihren Dienst unauffällig in Lenkwaffensystemen, Flugzeugen, Radaranlagen, Autos, Netzwerkkomponenten, Ultraschallgeräten, etc, etc, etc.
Diese sind aber weder in der Leistungsfähigkeit noch im Preis wirklich vergleichbar mit dem was unsereins als Prozessor kennt (auf die aktuellen x86 Modelle bezogen).
Chatt (der wo jetzt wieder weg muss :()
 
Das stimmt so nicht, der CS301 z.B. ist viel leistungsfähiger als die FPU und SSE von einem Pentium 4. Und es gibt bestimmt ne menge andere Chips, die in ihren speziellen Einsatzgebiet viel leistungsfähiger sind als ein x86 und sehr wenig Strom verbrauchen.

Stell dir mal vor das Radar der neuen F22 arbeitet mit einem Pentium.
Hab da mal einen Beitrag gesehen, die F22 soll ja mit ihrem Millimeterwellenradar feindliche Flugzeuge durchleuchten und ihre Bewaffnung identifizieren können.

Dafür braucht man ne menge Rechenleistung das hätte nicht einmal ein Xenon Server gepackt.

MfG
 
Bei solchen speziellen Aufgaben sind heutige x86 CPUs dank SIMD auch net langsam - nur wenn man einen Benchmark wie Whetstone hat, der die MFLOP Leistung misst ist das überhauptnet aussagekräftig. Noch ein schönes Beispiel: In meinem 486 Bench hab ich 2 Primzahlalgorithmen - der einie schafft auf meinem Athlon ca. 600 MIOPS (Millionen Integer Operationen pro Sekunde) und schaufelt dabei 3GB Daten pro Sekunde hin und her.

Der 2. Alg ist nur ein bisschen modifiziert - der packt nur 380 MIOPS und ca. 1.8GB Daten/s - ist aber trotzdem 0.8mal so schnell wie der erste.


Also es kommt auch immer darauf an was man berechnet, solche FLOP Werte wie sie gerne geliefert werden sind immer nur für bestimmte Operationen gültig. Der 2. Primzahlalg nimmt eben gerne Modulo und Division, und wird dadurch extrem langsam.

Genauso ist es auch bei solchen FPU Chips - die würden bei den normalen Operationen am Rechner auch nur wenig Durchsatz schaffen (wahrscheinlich würden die von jeder aktuellen CPU zersägt werden) - die Programme die auf den CPUs laufen sind aber so hoch optimiert, und die Daten so günstig, dass die Leistung nach oben schnellt. Nun kann man das aber nicht mehr mit den x86 CPUs vergleichen, da müsste man ähnlichen Code raussuchen (extrem viele parallele Berechnungen) und den Code per Hand auf die CPU optimieren. Und dann schafft auch ein Athlon oder P4 eben 10mal so viel Durchsatz (vor allem eben mit 3DNow, SSE, SSE2 und MMX).
 
Vom Preis kann man auch keinen fairen Vergleich machen.Auf dem freien Markt finden sich glaub ich gar keine RISCs.Allerhöchstens Mac-CPU-Upgrades von Sonnet oder ähnliches...
Aus dem Grund sind bei PPC-CPUs auch keine speziellen Versionen wie Xeon oder Opteron für den Dual-betrieb nötig...was sich dann beim Preis/Leistungsverhältnis bei Dual-Systemen bemerkbar macht.Dennoch glaub ich ,kann auch ne Fehleinschätzung sein ,das RISC CPUs aufgrund des schlankeren Designs bei einer ähnlichen Präsenz im Consumer Markt günstiger wären.
Von der Leistungsfähigkeit muß man hier auch verschiedene Konzepte vergleichen.
RISC oder PPC-CPUs z.b wurden nicht nur im typischen Computerbereich verkauft sondern auch für Router,Switches e.t.c ..Das setzt einen geringen Stromverbrauch vorraus..
Bei CICSs die nur ein Einsatzgebiet haben ,wird dem Verbrauch höchstens im Notebook Sektor Beachtung geschenkt.
 
Arcon brachte 1988 den Archimedes mit seinem ARM Prozessor raus.
Der konnte es, zu einem Bruchteil der Kosten, mit dem 386er aufnehmen.
Und RISC OS wahr ein echtes Multitasking OS mit einer GUI, die dem Microsoftschrott um länger voraus wahr. RISC OS hatte sogar Anti-Aliasing bei Vectorfonts.

Heute werden ARMs sogar von Intel gefertigt, die meisten PDA's mit Windows CE benutzen diesen Prozessor.

Suns erster SPARC Prozessor wahr schneller als ein 386er, hatte aber bloß 55.000 Transistoren, während ein 386er 275.000 hatte.

MfG

Edit:

Einweiteres Beispiel:
Die Cyber 6600, der erste Supercomputer des legendären Computerbauers Seymour Cray, wahr ein RISC. Er hatte nur 64 Maschinenbefehle mit einem einheitlichen Format. Er brachte es auf stolze 9 Megaflops und konnte somit eine IBM 360 mit ihren popeligen 330 Kflops spielend in die Tasche stecken.
 
Zuletzt bearbeitet:
How are CSX processors typically used?

Nette Ergänzungs-CPU
Mit der aktuellen News von Heise
Applikation-Beschleuniger mit 50 GFLOP/s
ClearSpeed hat auf dem Fall Processor Forum einen 50 GFLOP Stream Processor namens CSX600 vorgestellt. Er ist aus 96 parallel arbeitenden Processing Elements (PE) zusammengesetzt. Jedes PE ist ein kleiner VLIW-Prozessor (Very Long Instruction Word) für 32- oder 64-Bit-Gleitkomma und 16-Bit-Integer, mit einem lokalen Speicher von 6 KByte.

MFG Bokill
 
Heise hat da einen weiteren Konkurrenten bei der Herbst-CPU Veranstaltung Fall Processor Forum Vektor-DSP von ChipWrights gesichtet. Es ist ein Prozessor, der wichtig für Konsolen, Set-Top-Boxen und ähliches ist. Phlips hat mit dem Trimedia ja vergleichbares, wie auch TexaInstruments und AnalogDivices ... ein kleiner tapferer Ritter hat da eigene Lösungen vorgestellt.
ChipWrights Ach wenn deren Ansatz mit dem Vektor-DSP CW5521 etwas ungewöhnlich erscheint ... so ist dies nicht ganz aus der Welt.
Er hat zwar einen Instruktions-, aber keinen Daten-Cache, der bei Streaming Data eher stört als hilft. Stattdessen besitzt er ein schnelles, statisches "Primary Memory" von 256 KByte.
AMD hatte mit dem 29000 da einen wesentlich radikaleren Prozessor auf den Markte gebracht der keinen Cache hatte nur Register

Was mit dem "Primary Memory" gemeint ist kann ich derzeit nicht sagen. Ist`s eine Umschreibung von einem Trace Cache ala Pentium4?

MFG Bokill
 
> Was mit dem "Primary Memory" gemeint ist kann ich derzeit nicht sagen. Ist`s eine Umschreibung von einem Trace Cache ala Pentium4?

Nein, damit meint man direkt addressierbare Speicherzellen im Prozessor. Bei DSPs spricht man in dem Zusammenhang oft von Scratchpad-Memory.

Vorteil ist der der wesentlich schneller Zugriff als auf den Hauptspeicher. Im extrem könnte ein so organisiertes Memory sogar schneller als Cache sein -- man braucht ja keine sehr komplexe Comperatorlogik um die Daten zu finden.

Der Vorteil, dass die Software über den Inhalt enscheidet ist gleichzeitig der größte Nachteil, denn damit muss diese Resource durch Software gemanaged werden muss (=> Zugriffs-Koordinierung, Speicherplatz-Vergabe, ...)

Je nach Architektur wird dieser Speicher einfach in der normalen Memorymap eingeblenden und ist dann mit normalen Instruktionen addressierbar oder aber es gibt spezielle Load/Store Befehle die dazu dienen auf diesen Speicher zuzugreifen (Ähnlich den x86 in/out Befehlen).

Ich warte ja schon lange, dass sowas auch in General Purpose CPUs auftaucht, aber bisher macht noch kein Hersteller Anstallten sowas zu integrieren.


Interessant an dem Chip ist die ISA, welche Instruktionen mit bis zu sieben Operanden kennt.
Many-operand instructions (VDIW): A typical RISC instruction has two input operands, either two registers or a register and a literal, and one output result. This DSP has instructions that can have up to seven input operands and three outputs.

The seven inputs are: an A operand register, the A data type (8b, 16b, 32b, packed 8b, packed 16b; and signed/unsigned), a B operand register and the B data type, a 9-bit literal, the accumulator, and the output data type. The three outputs are a parallel output register, and serial input and output pointer registers. On the memory side, one can have up to four input operands (a base address, an address offset or post-increment, a stride, and a parallel write data register), and two outputs (an updated address pointer and a memory destination). With complex instructions like these, many operations can be specified by a single 32-bit instruction. This can be called a Very Dense Instruction Word
(VDIW™), and permits high performance with a single-issue instruction dispatcher, a small instruction cache, and a small amount of hazard checking logic.

Ein solche VDIW Instruktion kann folgende Bestandteile haben SHIFT, AND, MUL, ADD, SHIFT, OR. Damit kann man z.B. recht effektiv mit kleinen Bitfeldern rechnen (SHIFT/ADD = Bitfield extract; MUL/ADD = eigentliche Operation; SHIFT/OR Bitfield insert)

BTW. Die Agilent hat bereits den Core des Vorgänger-Chips als Herzstück eines SoC auf den Markt gebracht. Jedenfals schön zu sehe, dass es so kleine und innovative Chipschmieden noch gibt.
 
Zurück
Oben Unten