Auf zum Atom!

mj · 09.07.2008

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2730&w=o" border=1></center>

Da werden sich einige Leser mit Sicherheit verwundert die Augen reiben. Ein Medion-Laptop? Mit Intel-Prozessor? Was um Himmels Willen hat ein solches Gerät auf Planet 3DNow! verloren? Die Antwort ist ganz einfach: Es handelt sich nicht um irgendeinen Intel-Prozessor, vielleicht am Ende noch eine bekannte Architektur in neuem Gewand. Im Medion Akoya E1210, welches auf dem MSI Wind U100 basiert und als solches ab August verfügbar sein soll, arbeitet Intels neuestes ultramobiles Machwerk, der <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1204623936" target="b">Atom N270</a> mit 1,6 GHz und einer TDP von gerade mal 2,5 Watt.

Der vom <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1209487468" target="b">Asus Eee-PC ausgelöste Boom</a> der ultrakompakten Subnotebooks, oder neudeutsch auch „Netbooks“ genannt, verlangt nach völlig anderer Hardware, als dies bei einem üblichen 14-17" Notebook der Fall ist. Um den Markt nicht an sich vorbeiziehen zu lassen, hat man bei Intel den <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1204623936" target="b">Atom</a> - immer unter der Prämisse der hohen Energieeffizienz im Hinterkopf - von Grund auf neu entwickelt. Auch von AMD soll ein für dieses Marktsegment passender Mikroprozessor kommen und wieder mal <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1214736743" target="b">soll es das Allheilmittel K8 richten</a>.

Da dieser jedoch, schenkt man den unbestätigten Gerüchten Glaube, frühestens Ende des Jahres verfügbar sein soll stellt sich mit Sicherheit so mancher Leser die Frage, ob sich das Warten tatsächlich lohnt. Und natürlich kommt auch hier die Frage auf ob ein auf 1 GHz getakteter K8-Prozessor dem speziell für diesen Einsatzzweck entwickelten Atom-Prozessor tatsächlich Paroli bieten kann?

[BREAK=Medion Akoya E1210 aka MSI Wind U100]
Wir möchten im Folgenden das Medion Akoya E1210 kurz vorstellen, jedoch keinen ausführlichen Notebooktest durchführen. Primär wollen wir uns natürlich mit der Architektur und der Atom-Plattform als solche befassen. Das E1210 dient also eher als Weg zum Ziel und ist nicht das Objekt unserer Begierde und unseres Interesses.

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2715"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2715" border="1" alt="Atom"></a> <a href="http://www.planet3dnow.de/photoplog/index.php?n=2716"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2716" border="1" alt="Atom"></a></pre></center>

Merkmale:

10“ matter Bildschirm mit LED-Beleuchtung (1024x600)
Intel Atom N270 (1,6 GHz) mit Hyperthreading Technology (im folgenden SMT genannt)
1.024 MB DDR2-SDRAM
Intel 945GME Chipsatz
80GB Western Digital S-ATA HDD

Mit seinen gemessenen 1,2kg Gewicht inkl. 3-Zellen Akku ist das E1210 vor allem auf eines ausgelegt: Mobilität. Im Gegensatz zu vollwertigen und deutlich schnelleren - dafür aber auch deutlich größeren und somit schwereren - Notebooks versucht das E1210 als Vertreter der Subnotebookklasse gar nicht erst vollwertiger Desktop-Ersatz zu sein und beansprucht auch nicht das hierfür nötige Potenzial für sich. Ein Netbook muss nicht schnell sein, aber es sollte den Anwender auch nicht mit übertrieben langen Wartezeiten in den Wahnsinn treiben.

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2718"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2718" border="1" alt="Atom"></a> <a href="http://www.planet3dnow.de/photoplog/index.php?n=2717"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2717" border="1" alt="Atom"></a></pre><small>Größenvergleich mit einem 14" großen Acer Aspire 4315</small></center>

Die magische Formal lautet schlichtweg: nicht schnell, aber schnell genug. Und genau hier setzt Intels Atom-Plattform an, denn erstmals spielte die Geschwindigkeit bei der Entwicklung eines Mikroprozessors nur eine Nebenrolle, wie die Designentscheidungen der Ingenieure eindrucksvoll dokumentieren. Der Atom will das Ying zum selbsternannten Yang der Mobilität von Netbooks sein.

[BREAK=Stromsparen par excellence!]
Doch wie viel Leistung ist ausreichend? Seit der Explosion der Leistung moderner Mikroprozessoren wird diese Frage zu Recht immer und immer wieder gestellt. Braucht es wirklich zwei bis vier hochgezüchtete Kerne um mal schnell die E-Mails abzurufen, einen Brief an Tante Martha zu schreiben, oder den Beziehungsstatus oder die neuesten Wochenendeskapaden eines Freundes / einer Freundin bei StudiVZ, Myspace, oder einer anderen der unzähligen Social Networking Seiten nachzusehen? Braucht man selbst einen einzelnen hochgetakteten Kern um so simple Aufgaben zu erledigen, um unterwegs Videos zu schauen oder Musik zu hören? Was sind überhaupt die Anforderungen einer mobilen Plattform – zählt dort wirklich, wie dies scheinbar im Desktop-Markt der Fall zu sein scheint, jedes Quäntchen an Leistung, oder gibt es unter Umständen andere Prioritäten, die eine niedrige Leistung mehr als wieder wettmachen würden? Über allem schwebt also unübersehbar die Frage: müssen mobile Begleiter primär sparsam und sekundär schnell sein, oder umgekehrt? Kunden, Konzerne und Ingenieure haben diese Frage vorerst beantwortet und haben sich für den ersten Weg entschieden.

Um also einen passenden Mikroprozessor zu entwickeln, gibt es zwei Möglichkeiten. Entweder man drückt den Ingenieuren ein bestehendes Design mit den vielsagenden Worten „macht mal“ in die Hand. Dieser Weg verspricht bekannte Leistungsdaten und Vermarkungsstrategien, da er auf bereits mehr oder weniger etablierten Produktpaletten basiert und diese lediglich um eine mobile Version erweitert. Die inhärenten Nachteile dieses Ansatzes liegen jedoch auf der Hand: Ein Design, welches nicht mit dem für diesen Sektor fundamentalen Kernprinzip „Energieeffizienz“ entwickelt wurde, ist nur mit hohem Aufwand darauf abzustimmen. Unter Umständen können auch die letztendlichen Preise sehr hoch ausfallen, da sie sich umgekehrt proportional zum Yield, also der Ausbeute an Prozessorkernen pro Wafer, verhalten: Je niedriger die Ausbeute, desto höher der Preis. Für diesen Weg hat sich AMD entschieden, denn der noch für dieses Jahr angekündigte auf dem K8 basierende ultramobile bis dato namenslose im 65nm-Verfahren produzierte Mikroprozessor wird nichts weiter als ein besonders effizienter und auf 1 GHz getakteter K8 mit 256KB L2-Cache und einem Kern sein. Im Grunde genommen handelt es sich dabei um einen Sempron LE-1150 Kern mit von 2 GHz auf 1 GHz reduzierter Taktfrequenz und deutlich reduzierter Kernspannung. Da die Verlustleistung eines Prozessors in linearem Verhältnis zur Taktfrequenz steht und in quadratischem Verhältnis zu Kernspannung, lassen sich auf diesem relativ konventionellen Weg tatsächlich sehr sparsame Prozessoren herstellen, solange AMD genügend Dies selektieren kann, die bei der vorgesehenen Taktfrequenz mit genügend wenig Kernspannung arbeiten, um die TDP-Vorgaben zu erreichen.

Für die zweite Möglichkeit entschied sich Intel, da im Hause schon mit dem Banias sehr gute Erfahrungen mit der Neuentwicklung einer energieeffizienten Architektur, die auf einem erfolgreichen Vorgänger basiert (im Falle des Banias also der Pentium III), gemacht wurden. Man nehme eine bereits existierende Architektur, optimiere sie in punkto Energiebedarf und jage sie anschließend durch einen technologischen Gegenwartsfilter, um von sämtlichen Fortschritten, die seit der Entwicklung der ursprünglichen Kernarchitektur gemacht wurden, zu profitieren. Heraus kommt eine von Grund her auf äußerst niedrigen Energiebedarf hin optimierte Plattform, bei der jede Designentscheidung nicht nur in Bezug auf Leistung, sondern auch in Bezug auf für die Realisierung benötigte Energie durchdacht wird. Features, deren Umsetzung den Energiebedarf unnötig in die Höhe getrieben hätten, werden schlichtweg aus dem Prozessor entfernt oder rechtzeitig verworfen. Am Ende dieses Prozesses steht der Atom.

[BREAK=Atom im Detail]
Würde man sämtliche Prozessoren Intels der Reihe nach aufstellen, so würde der Atom einen klaren Bruch in der Konstanz der Mikroprozessoren seit 1995 darstellen: als erster Kandidat seit dem Pentium handelt es sich um eine in-order Architektur, wohingegen alle Prozessoren seit dem Pentium Pro out-of-order Architekturen waren. Der Unterschied dieser beiden Konzepte liegt in der Reihenfolge, in der Maschinenbefehle ausgeführt werden können: eine out-of-order Architektur verfügt über entsprechende Einheiten, die eine Befehlskette umsortieren und somit Befehle nicht der Reihe nach, sondern durcheinander gewürfelt ausführen können. Vorteil dieser Technik: zeitaufwändige Wartezyklen, weil beispielsweise die Sprungvorhersage falsch lag und Daten erst aus dem langsamen Arbeitsspeicher geladen werden müssen, fallen weg. Die out-of-order Logik arbeitet in so einem Fall geschickt um den wartenden Befehl herum und führt stattdessen andere Operationen durch.

Der Nachteil: Eine gut funktionierende out-of-order Logik ist extrem komplex und benötigt Millionen von Transistoren, die konstant eingesetzt werden und somit sehr viel Energie benötigen. Zudem sind zusätzliche nicht direkt mit der out-of-order Logik zusammenhängende Einheiten nötig, beispielsweise weitere Decoder, größere Caches, eine Logik die Operationen auf gegenseitige Abhängigkeiten überprüft (ist Operation 2 vom Ergebnis von Operation 1 abhängig oder nicht?) , etc. Simpel ausgedrückt: Eine out-of-order Logik beschleunigt den Prozessor zwar beträchtlich, schraubt den Energiebedarf und die Komplexität jedoch überproportional nach oben. Lässt man sämtliche Einheiten der out-of-order Logik weg erhält man einen in-order Prozessor der zwar langsamer arbeitet als er könnte, jedoch im Gegenzug dazu auch deutlich sparsamer. Und wir erinnern uns an das Credo der Entwicklung: oberstes Ziel ist die Energieeffizienz, erst dann kommt die erzielte Leistung ins Spiel.

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2719"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2719&w=l" border="1" alt="Atom"></a></pre><small>Dieshot des Intel Atom. Gut zu sehen: die großen Caches und die im Vergleich zum Core 2 oder K8 simple Struktur und Architektur.</small></center>

Jetzt ist moderne Software dummerweise nicht linear und Wartezyklen kosten nicht nur Zeit, sondern verfügen auch noch über die lästige Angewohnheit unnötigerweise Energie, die aufgrund des Däumchendrehens der Befehlseinheiten sinnlos in Wärme verpufft, zu verbraten. Zwar ist dieser Kollateralschaden aufgrund des Komplexitätsverlusts der out-of-order Logik gering, dennoch wäre natürlich eine Lösung für beide Probleme, also der in Wärme verpufften Energie und den unnötigen Wartezyklen, dem selbstauferlegten Credo mehr als angemessen. Und obgleich in naher Zukunft auch Dual-Core Prozessoren der Atom-Serie verfügbar sein werden, entschieden sich die Ingenieure für die Wiederkehr einer an sich schon totgeglaubten Technologie: Simultaneous Multi-Threading (im folgenden SMT). Zwar erhöht sich dadurch die Transistorzahl und in direkter Folge davon auch der Energiehunger des Mikroprozessors, jedoch sorgt die höhere Auslastung der Befehlseinheiten für weniger Leerlauf und beschleunigt praktischerweise auch noch die Ausführung komplexer und aus mehreren Threads bestehender Befehlsketten. In der Energiebilanz stehen einem Soll also auch diverse Haben gegenüber. Der Energiebedarf bei implementiertem SMT steigt, laut Intel, um etwa 20%, denn immerhin ist ein zweiter Decoder notwendig, ein größerer Cache von großem Vorteil und auch zusätzliche Befehlseinheiten schaden nicht.

Aufgrund der in-order Architektur dürfte die Implementierung jedoch theoretisch ein deutlich größeres Leistungsplus ergeben, als dies bei einer out-of-order Architektur der Fall ist. Betrachten wir folgendes Beispiel:

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2731"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2731&w=l" border="1" alt="Atom"></a></center>
Oben ein in-order Prozessor ohne SMT, unten einer mit SMT. Ein Schritt nach rechts bedeutet ein Taktsignal weiter, die Operationen und Befehlseinheiten sind farblich codiert: rot=ALU, grün=FPU, blau=sonstige. Auf die drei verfügbaren Befehlseinheiten laufen zwei Threads parallel zu - der Prozessor ohne SMT muss diese also abwechselnd abarbeiten, während der Prozessor mit SMT beide Threads parallel abarbeiten kann.

t=0: Ausgangssituation, beide Prozessoren beginnen im nächsten Takt mit der Arbeit.
t=1: Beide Prozessoren können nur eine ALU-Operation durchführen, da nur eine ALU-Befehlseinheit zur Verfügung steht.
t=2: Der Prozessor ohne SMT arbeitet die ALU-Operation aus dem zweiten Thread ab, der Prozessor mit SMT fängt zusätzlich hierzu mit der Berechnung der zwei Taktzyklen langen FPU-Operation an.
t=3: Der Prozessor ohne SMT fängt mit der Berechnung der zwei Taktzyklen langen FPU-Operation an, der Prozessor mit SMT schließt diese ab und berechnet zusätzlich noch eine ALU-Operation aus dem zweiten Thread.
t=4: Der Prozessor ohne SMT schließt die Berechnung der zwei Taktzyklen langen FPU-Operation ab, der Prozessor mit SMT berechnet eine FPU-Operation und eine Sonstige.
t=5: Der Prozessor ohne SMT macht sich an die Berechnung der ALU-Operation aus dem zweiten Thread, die der Prozessor mit SMT bereits im dritten Taktzyklus berechnet hat. Dieser ist währenddessen mit der letzten ALU-Operation beschäftigt und hat die Berechnung von sieben Befehlen innerhalb von fünf Taktzyklen abgeschlossen. Der Prozessor ohne SMT wird hingegen noch drei weitere Takte benötigten.

Theoretisch betrachtet spricht man hier vom Instruction Level Parallelism (ILP), der in diesem Fall beim Prozessor mit SMT 7/5 beträgt. Dies setzt natürlich voraus, dass keine der Instruktionen vom Ergebnis der gerade parallel ablaufenden zweiten Instruktion abhängig ist. Nehmen wir t=2: Falls einer der Operanden der ALU-Instruktion vom Ergebnis der gerade laufenden FPU-Instruktion abhängig ist, so kann die ALU-Instruktion erst zwei Takte später bearbeitet werden, da es sich ja um eine zwei Taktzyklen lange FPU-Instruktion handelt. Der ILP wäre in diesem Fall 7/7. Würde es sich um einen out-of-order Prozessor handeln, dann könnten die ALU-Instruktion und die sonstige Instruktion des zweiten Threads in der Zeit berechnet werden, in der die ALU-Operation auf das Ergebnis der zwei Taktzyklen langen FPU-Instruktion wartet - der ILP wäre in diesem Fall wieder 7/5.

[BREAK=Fortsetzung: Atom im Detail]
Doch auch SMT verhindert nicht den Super-GAU einer in-order Architektur: Eine Instruktion mit hoher Latenz (die also mehrere Taktzyklen bis zur Verfügbarkeit des Ergebnisses benötigt) die zudem noch auf Daten aus dem langsamen Arbeitsspeicher warten muss. Selbst SMT hilft in so einem Fall nicht weiter, da hier nur zwei separate Threads parallel ausgeführt, jedoch nicht ein Thread auf mehrere parallel ausführbare Ketten aufgeteilt werden kann. Eine in-order Architektur sieht in so einem Fall also schwarz, da sie die Befehle ja bekanntlich der Reihe nach ausführen muss. Oder mit noch anderen Worten: mit der Energieeffizienz geht es steil bergab, wenn hunderte von Taktzyklen unnötig gewartet werden muss.

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=2733"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2733&w=o" border="0" alt="Atom"></a></center>

Da wäre es doch praktisch, wenn eine Logik implementiert werden könnte, die in so einem Fall etwas dagegen unternimmt, dass der gesamte Prozessor für die Dauer der Ausführung dieser Operation stillsteht. Vielleicht eine Technik, welche die Befehlskette vor der Ausführung durchleuchtet und überprüft, ob auf eine solche Instruktion mit hoher Latenz vielleicht direkt eine Instruktion mit sehr kurzer Latenz folgt. Das dachten sich auch die Ingenieure und setzten diesen simplen Gedanken in die Tat um. Die Technik nennt sich „Safe Instruction Recognition“ (SIR) und kann in einem ganz speziellen Fall Befehle umsortieren: Folgt auf eine FPU-Operation (die aufgrund der verhältnismäßig langsamen Fließkommaeinheit der Atom-Architektur also eine sehr hohe Latenz aufweist) eine schnelle ALU-Operation, so wird die Ausführreihenfolge dieser beiden vertauscht, so dass das Ergebnis der ALU-Operation deutlich früher verfügbar ist als ohne diese Umstellung der Reihenfolge. Wie häufig dieser doch sehr spezielle Fall auftreten wird können wir nicht beantworten.

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2713"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2713" border="1" alt="Atom"></a> <a href="http://www.planet3dnow.de/photoplog/index.php?n=2712"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2712" border="1" alt="Atom"></a></pre></center>

Produziert wird der winzig kleine Prozessor im 45nm Verfahren, was in einem fast schon lächerlich anmutend kleinen Die resultiert. Die Wärmeentwicklung ist übrigens so gering, dass Medion/MSI sogar auf den Einsatz von Wärmeleitpaste oder Pad verzichten.

[BREAK=Nicht schnell, aber schnell genug]
Das Ergebnis dieser Radikalentwicklung spaltet die Gemüter. Die einen staunen ob der niedrigen TDP von etwas über zwei Watt, die anderen schütteln ob der in-order Architektur schockiert und verstört den Kopf und suchen nach dem Zeitloch in Intels Logik. Fest steht, dass der Erfolg des Atoms von zwei Punkten abhängt: Erstens ist seine Verbreitung linear vom Erfolg der ultrakompakten Notebooks, oder „Netbooks“, abhängig. Zweitens muss er schnell genug sein, um die Kunden nicht zu enttäuschen. Schenkt man Intel Glauben, so soll die Atom-Architektur für normale Büro-Arbeiten wie Textverarbeitung oder dem Versenden von E-Mails völlig ausreichen. Hierbei langweilen sich moderne Mikroprozessoren ohnehin beinahe durchgehend, somit ist diese Aussage auch wenig überraschend.

Von AMDs Antwort auf den Atom hört man bisher noch relativ wenig. Ein auf 1 GHz getakteter K8-Kern soll’s mal wieder richten. Angeblich soll der Prozessor über einen auf 256 KByte verkleinerten L2-Cache und nur einen einzelnen Kern verfügen. Die Gerüchteküche weiß weiterhin, dass ein DDR2-400 Speichercontroller zum Einsatz kommen wird und der Prozessor samt integriertem Speichercontroller eine TDP von weniger als 10 Watt aufweisen soll. Letzteres können wir nicht testen, ersteres jedoch zumindest ansatzweise nachstellen. Um dem Atom also seinen (möglichen) Konkurrenten zur Seite zu stellen, haben wir einen aktuellen X2-Prozessor auf 1 GHz (5x200 MHz) getaktet und den zweiten Kern abgeschaltet.

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2572"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2572"></a></pre><small>Bildquelle: <a href="http://www.xbitlabs.com/news/cpu/display/20080627185904_AMD_Readies_K8_Class_Processors_for_Low_Power_Systems_Pictures.html" target="_blank">X-bit labs</a></small></center>
<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2573"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2573"></a> <a href="http://www.planet3dnow.de/photoplog/index.php?n=2574"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2574"></a></pre><small>Bildquelle: <a href="http://www.xbitlabs.com/news/cpu/display/20080627185904_AMD_Readies_K8_Class_Processors_for_Low_Power_Systems_Pictures.html" target="_blank">X-bit labs</a></small></center>

Die Ergebnisse der K8-Messungen dienen jedoch lediglich als grober Anhaltswert und sind keineswegs mit der tatsächlichen Leistung der noch namenlosen Plattform gleichzusetzen. Als ungefähre Tendenz können sie jedoch durchaus schon mal einen frühen Blick auf die in etwa zu erwartende Performance des ultramobilen 1 GHz K8-Prozessors bieten. Denn dank out-of-order Architektur und der dadurch besonders im Vergleich zum Atom hohen IPC des K8-Kerns könnte dieser für den Atom, zumindest in Punkto Leistung, eine ernsthafte Gefahr darstellen.

Auf den üblichen Benchmark-Parcours haben wir an dieser Stelle verzichtet, da er für ein Subnotebook zu grafiklastig und somit praxisfern ist. Folgende Benchmarks kamen zum Einsatz:

<center><table border="1" cellpadding="3" cellspacing="0" summary="verwendete Software / Treiber" width="550px"><tr><th style="font-weight: bold; color: #fff; background: #008c58; " >verwendete Software / Treiber</th><th style="font-weight: bold; color: #fff; background: #008c58; ">Version / Bemerkungen</th></tr><tr><td><div style="text-align: left;">Windows XP Home</td><td><div style="text-align: center;">32 Bit, Service Pack 3</td></tr><tr><td><div style="text-align: left;">XMPEG</td><td><div style="text-align: center;">5.03</td></tr><tr><td><div style="text-align: left;">Xvid</td><td><div style="text-align: center;">1.0.3</td></tr><tr><td><div style="text-align: left;">WinRAR</td><td><div style="text-align: center;">3.80</td></tr><tr><td><div style="text-align: left;">7-zip</td><td><div style="text-align: center;">32 Bit, 4.57</td></tr><tr><td><div style="text-align: left;">Cinebench</td><td><div style="text-align: center;">R9.5</td></tr><tr><td><div style="text-align: left;">SuperPI</td><td><div style="text-align: center;">1M, Mod 1.4</td></tr><tr><td><div style="text-align: left;">BOINC/SETI@home</td><td><div style="text-align: center;">5.10.45 / SETI@home Standard-Client</td></tr></table></center>

Wo dies sinnvoll erschien (Cinebench, WinRAR, 7-zip und Xmpeg), führten wir mit dem Atom zusätzlich einen Benchmarkdurchlauf mit abgeschaltetem SMT durch. Dadurch kann die tatsächliche Effizienz der virtuellen Mehrkernigkeit getestet werden. Da sowohl SuperPI als auch der SETI@home Client nicht multithreaded programmiert sind, also aus mehr als einem Kern (egal ob real oder virtuell) keinerlei Nutzen ziehen, haben wir auf den Testdurchlauf mit deaktiviertem SMT verzichtet. Zwar hätten wir zwei Instanzen von SETI@home starten können, was auf echten Dual-Core Prozessoren den Durchsatz nahezu verdoppelt. Auf einem SMT-System können sich die beiden Threads jedoch in die Quere kommen (gut zu sehen am Beispiel t=1 auf Seite 4) wenn parallel die gleiche Befehlseinheit benötigt wird. Im Ergebnis sind dann zwei parallel durchgeführte Berechnungen möglicherweise langsamer als zwei sequentiell durchgeführte, aber auch das Gegenteil kann eintreten. Da in der Praxis beide Fälle möglich und realistisch sind, haben wir auf eine Messung verzichtet.

[BREAK=Benchmarks: SuperPI und Cinebench]
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2708&w=o"></center>
Mit 1:33min für SuperPI 1M macht sich der Atom ganz ordentlich, zeigt jedoch auch deutlich seine Schwächen. Die FPU mit hoher Latenz, die starke Gleitkommalastigkeit von SuperPI und die in-order Ausführung eines einzelnen Threads lassen dem Atom hier kaum Gelegenheit SIR oder SMT zum Zuge kommen zu lassen. Fairerweise muss allerdings hinzugefügt werden, dass der Algorithmus auch von einer out-of-order Ausführung kaum profitiert, da Abhängigkeiten zwischen den einzelnen Schritten übermäßig häufig vorhanden sind.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2704&w=o"></center>
Ähnliche Situation auch beim Cinebench R9.5, allerdings mit dem feinen Unterschied, dass SMT hier zum ersten Mal seine Stärke aufblitzen lässt. Eine 51-prozentige Leistungssteigerung dank SMT ist beachtlich, die Leistung ohne SMT hingegen eher schwach. Dennoch zeigt sich hier auf imposante Art und Weise, dass die Designentscheidung für SMT korrekt war. Nur die hohen Latenzen der Fließkommaeinheit vermiesen eine bessere Platzierung.

[BREAK=Benchmarks: Winrar und 7-zip]
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2705&w=o"></center>
Anders sieht die Situation bei WinRAR und 7-zip aus und auch hier profitiert der Atom beträchtlich von SMT. Eine Steigerung um stolze 70 Prozent macht Lust auf mehr und 369 KB/s sehen besser aus als erwartet.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2706&w=o"></center>
7-zip liefert ein ähnliches Bild. 525 KB/s ohne SMT, 824 KB/s mit SMT entsprechen einer 57-prozentigen Steigerung. Dank der äußerst detaillierten Ergebnisse eignet sich 7-zip zudem hervorragend dazu, die Stärken und Schwächen von SMT nebeneinander zu präsentieren. So steigt die Auslastung der Befehlseinheiten um 69 von 97 auf 166 Prozent. Die real erzielte Leistung verbessert sich jedoch lediglich um 57 Prozent. Der Grund hierfür sind die bei SMT nötigen Wartezyklen, wenn die benötigte Befehlseinheit gerade vom jeweils anderen Thread belegt ist. Konkret bricht die Leistung pro Kern von 660 MIPS (Million Instructions per Second) auf etwa 600 MIPS ein, 34 Prozent der Taktzyklen werden mit konstruktivem Nichtstun verbraten. Zweiteres liegt am verwendeten Algorithmus von 7-zip, da dies auch bei einem echten Dual-Core Prozessor eintritt. Die prozentual schlechtere Leistung pro Kern ist jedoch SMT-spezifisch, denn bei einem Dual-Core System kann im Idealfall bei doppelter Auslastung auch eine lineare Leistungssteigerung erzielt werden. Nichtsdestotrotz eine beeindruckente Präsentation der Effizienz von SMT.

[BREAK=Benchmarks: BOINC/SETI@home und Xmpeg]
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2709&w=o"></center>
Seti war die große Überraschung im Testparcours, denn die Leistung war trotz fehlender Unterstützung für SMT/SMP erstaunlich gut. Mit 2:14 Stunden braucht der Atom zwar etwa eine Stunde mehr als ein moderner Desktop-Prozessor der 2-GHz-Klasse, erwartet hatten wir allerdings aufgrund der in-order Architektur deutlich mehr Rechenzeit.

Ein sehr interessanter Aspekt ergibt sich, wenn man die benötigte Rechenzeit in Relation zur dafür benötigten Energie aufschreibt. Im Fall des E1210 bedeutet dies einen Volllastenergiebedarf von etwa 18 Watt (ganzes System, Details siehe nächste Seite) und einer Rechenzeit von 2,25 Stunden, also etwa 40 Wattstunden pro WU. Das passende Äquivalent wäre also ein Computer, der bei einem Energiebedarf von 40 Watt (ganzes System!) eine WU in einer Stunde berechnet.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2707&w=o"></center>
Schwächen zeigt der Atom wiederum beim Umwandeln des Referenzvideos. Gerade mal 26 Prozent bessere Leistung bei Aktivierung von SMT sind nicht gerade berauschend und auch die Gesamtleistung kann nicht überzeugen. Fairerweise muss allerdings hinzugefügt werden, dass das Encodieren von Videos vermutlich eher selten zu den Aufgaben eines Atom-Rechners gehören wird, denn für den Einsatz in HTPCs fehlen derzeit noch die passenden Platinen.

[BREAK=Ein Blick auf den Stromzähler]
Die Benchmarks zeigen, dass Leistung nicht unbedingt zu den Paradedisziplinen des Atom zählt. Er schlägt sich zwar wacker, verdankt dies jedoch hauptsächlich seinen SMT-Fähigkeiten und dem mit 1,6 GHz verhältnismäßig hohen Takt. Umso beeindruckender ist dafür die Energiebilanz: laut Messgerät (PeakTech 9024, Genauigkeit laut Hersteller +/- 2%) zieht der E1210 28 Watt bei voller Auslastung der CPU und 23 Watt im Leerlauf (jeweils ganzes System bei voller Displayhelligkeit) aus der Stromleitung. Der Wirkungsgrad des beigelegten 65 Watt Netzteils liegt, laut dem Hersteller FSB, bei durchschnittlich 84 Prozent. Rechnet man diese Verluste aus dem Ergebnis heraus, bleibt für das komplette System ein Energiebedarf von etwa 23 Watt bei Volllast und etwa 19 Watt im Leerlauf über.

Realistisch betrachtet sind diese Angaben jedoch immer noch sehr ungenau, da hierin sowohl Wärme- als auch Schaltverluste des Netzteils enthalten sind. Auch die Messungenauigkeit unseres Messgeräts schlägt sich im Ergebnis nieder. Eine deutlich exaktere Methode, um den tatsächlichen Momentanverbrauch zu messen, ist das Auslesen der Discharge Rate des Akkus im Batteriebetrieb, beispielsweise mit Hilfe von RMclock:

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2722"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2722&w=o" border="1" alt="Atom"></a></pre><small>Oben bei abgedunkeltem Display im Leerlauf, unten bei voller Displayhelligkeit im Leerlauf</small></center>

<center><pre><a href="http://www.planet3dnow.de/photoplog/index.php?n=2723"><img src="http://www.planet3dnow.de/photoplog/file.php?n=2723&w=o" border="1" alt="Atom"></a></pre><small>Oben bei abgeschaltetem internen Display im Leerlauf, unten bei abgeschaltetem internen Display unter Volllast</small></center>

Um mit dem Atom konkurrieren zu können muss AMD nicht nur eine ähnliche Leistung wie dieser erbringen, sondern auch in punkto Energiebilanz auf gleichem Niveau agieren. Zwar gibt Intel die TDP des Atom N270 mit 2,50 Watt an, der durchschnittliche Bedarf bei typischer Nutzung beträgt allerdings gerade mal 220mW, der minimale Bedarf im Leerlauf sogar nur 100mW. An diesen Werten wird sich AMD messen lassen müssen, denn letzten Endes zählt in diesem Sektor die Energiebilanz deutlich mehr als die Leistung und der Atom legt ordentlich vor.

Ein Leistungsbedarf von unter acht Watt im Leerlauf (bei abgeschaltetem Display) ist beachtlich, auch wenn unser Messgerät anderer Meinung ist. Die Schaltverluste und Ungenauigkeit schlagen also gnadenlos zu.

[BREAK=Das Wort zum K8]
Aufmerksamen Lesern wird aufgefallen sein, dass wir bisher kein Wort zur Leistung des zum Vergleich herangezogenen K8 verloren haben. Der Grund hierfür ist ganz einfach: dieser Test soll kein Vergleich zwischen Atom und K8 sein, denn solange der ultramobile K8 von AMD nicht verfügbar ist, sind sämtliche durchgeführten Benchmarks rein spekulativ. Unser Testexemplar war ein Athlon 64 X2 5400+ auf einem Gigabyte GA-M55plus-S3G mit Nvidia Nforce 430 Chipsatz, die finale ultramobile Plattform von AMD soll, bisherigen Berichten zufolge zumindest, auf eine Kombination aus M690E-Chipsatz und SB600 setzen.

Die hier erzielten Ergebnisse sind also mit höchster Vorsicht zu genießen, denn in der endgültigen Version kann die Plattform in beide Richtungen differieren. Wahrscheinlich ist, dass auch AMD zu Gunsten des Energiebedarfs auf das eine oder andere Feature verzichtet, aber auch der andere Weg ist theoretisch nicht undenkbar. So sind Taktsteigerungen durchaus im Rahmen der Möglichkeiten, sollte sich das Gesamtpaket als sparsamer herausstellen als zunächst angenommen. Dann könnte man dem großen Konkurrenten aus Santa Clara zumindest im ultramobilen Sektor die Performancekrone streitig machen. Wie genau jedoch die endgültige Situation aussehen wird, steht zu diesem Zeitpunkt noch in den Sternen. Von AMD selber gibt es bisher in alter Manier quasi keine Informationen zum zukünftigen Produkt.

[BREAK=Fazit]
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=2730&w=o" border=1></center>

Das angepeilte Ziel hat Intel also definitiv erreicht. Der Atom ist schnell genug um keine Langeweile aufkommen zu lassen und gleichzeitig so sparsam, dass der Einsatz in Subnotebooks das ideale Terrain für ihn ist. Ob AMD hier tatsächlich mit dem fünf Jahre alten K8-Design Kunden für sich gewinnen kann ist fraglich, vor allem wenn das Design nicht als etwas revolutionär Neues präsentiert wird. Zwar sind beide in punkto Leistung in etwa gleichauf, Intel kann jedoch bei zwei entscheidenden Aspekten punkten: neues werbeträchtiges Design und höhere Taktfrequenz. Denn der Erfolg der kleinen Energiewunder zeigt vor allem Eines: Dass die Leistung moderner Computer dem tatsächlichen Bedarf an Alltagsleistung schon längst enteilt ist. Selbst wenn der K8 doppelt so schnell wäre wie der Atom, der Erfolg der Kleinen hat gezeigt, dass dies den Kunden nicht wirklich interessiert. Viel wichtiger ist da die Verfügbarkeit der Plattform, die Energieeffizienz (je weniger Leistung der Prozessor zieht, desto kleiner kann der Akku bei gleicher Laufzeit ausfallen, oder desto höhere Laufzeit erreicht das Notebook bei gleicher Akkukapazität) und nicht zuletzt auch das Prestige. Die Hersteller der darauf basierenden Subnotebooks werden mit Sicherheit nicht noch ein halbes Jahr auf die Verfügbarkeit des AMD-Prozessors warten um am Ende dem Trend hinterherzulaufen, denn die Kunden wünschen entsprechende Geräte schon heute und nicht erst ab 2009.

Weiterhin steht zu bedenken, dass Intels Marketingabteilung traditionell die Kunden deutlich besser erreicht als dies AMDs quasi nicht vorhandenen PR-Bemühungen zu vermögen in der Lage sind. Gerade in diesem Sektor spielt Image eine wichtige Rolle, denn der Markt ist noch ganz frisch und Kundenbindungen noch nicht entstanden. Auch dürfte die angepeilte Klientel sich herzlich wenig für technische Details, tatsächliche Geschwindigkeit im Vergleich zur Konkurrenz, oder für die Firma dahinter interessieren. Produkte wie der Eee-PC, iPhone oder iPod werden gekauft weil sie "in", "hip", "trendy", oder "cool" sind (was auch immer den aktuellen Trend gerade so definiert) und nicht, weil sie mit technischer Brillianz beeindrucken. Vordergründig ist also das Image des Produkts. Der K8 hat also definitiv Potenzial, um dem Atom Kunden abzugraben – aber auch nur dann, wenn er ähnlich energieeffizient arbeitet wie dieser, wenn AMD dies den Kunden und den die Geräte produzierenden Herstellern auf prägnante Art und Weise verdeutlicht und vor allem eines: Wenn er denn endlich mal verfügbar wäre.

<center><a href="http://www.planet3dnow.de/vbulletin/showthread.php?p=3662681#post3662681">Artikel kommentieren...</a></center>

Auf zum Atom!

mj

Technische Administration, Dinosaurier, ,

Ähnliche Themen