Planet 3DNow! - Das Online-Magazin für den AMD-User

AKTUELLE NEWSMELDUNGEN

Intern: Umleitungsprobleme
Intern: Planet 3DNow! ab 18:00 Uhr eingeschränkt erreichbar
Never Settle Forever: AMD überlässt Zusammenstellung der Spielebündel seinen Kunden
Microsoft Patchday August 2013
Der Partner-Webwatch von Planet 3DNow! (13.08.2013)
Kühler- und Gehäuse-Webwatch (11.08.2013)
Ankündigung Microsoft Patchday August 2013
Vorerst kein Frame Pacing für AMD-Systeme mit Dual Graphics
Intern: kommende Woche eingeschränkte Erreichbarkeit auf Planet 3DNow!
Kaveri verschoben und keine neuen FX-Prozessoren von AMD [3. Update]
AMD plant Vorstellung neuer High-End-Grafikkarte Hawaii im September
Kaveri verschoben und keine neuen FX-Prozessoren von AMD [Update]
Der Partner-Webwatch von Planet 3DNow! (06.08.2013)
Kaveri verschoben und keine neuen FX-Prozessoren von AMD
AMD startet neue "Never-Settle-Forever"-Spielebündel für Radeon Grafikkarten
Neuer Artikel: SilverStone Fortress FT04 - Die Hardware steht Kopf

AKTUELLE DOWNLOADS

AMD Catalyst 13.8 Beta für Windows und Linux - Frame Pacing für CrossFire-Gespanne
NVIDIA GeForce Grafiktreiber 320.49 WHQL
CPUID HWMonitor 1.23
CPUID CPU-Z 1.65
AMD Catalyst 13.6 Beta 2 für Windows
FinalWire veröffentlicht neue AIDA64 Version 3.00
AMD Catalyst 13.6 Beta für Windows und Linux
AMD Catalyst 13.5 CAP1 - Neue Profile auch für Single-GPU-Systeme
AMD Catalyst 13.4 Beta Legacy für Radeon HD 2000, HD 3000 und HD 4000
AMD Catalyst 13.4 Proprietary Linux Display Driver
AMD Catalyst 13.5 Beta für Windows
AMD Catalyst 13.4 CAP1 - Neue Profile auch für Single-GPU- und Enduro-Systeme
AMD Catalyst 13.4 WHQL Desktop- und Notebook-Grafiktreiber
CPUID CPU-Z 1.64
TechPowerUp GPU-Z v0.7.0
AMD Catalyst 13.3 Beta 3 für Windows und Linux

AKTUELLE ARTIKEL

SilverStone Fortress FT04 - Die Hardware steht Kopf
Zalman CNPS5X Performa
Thermalright AXP-200
Fractal Design Arc Midi R2
mITX-Gehäuse: Inter-Tech Q-6 & E-i7
Antec HCG-750M und HCG-850M
Die neue Basis für unsere mITX-Gehäusetests: MSIs FM2-A75IA-E53
ASUS SABERTOOTH/GEN3 R2.0
Cooler Master B500 500W
Fujitsu STYLISTIC Q572 mit AMD Z-60 APU
AMD A10 6800K und A10 6700 im Test - neue APUs, alter Kern
Coby MID8065-8
Noctua NH-U12S und NH-U14S
Akasa AK-CC1101EP02 & Xigmatek Praeton LD963
mITX-Gehäuse - Cooltek Coolcube Mini
Weitere aktuelle Artikel, Tests, Guides, und Kolumnen...

QUICK LINKS

FORUM AKTUELL

UMFRAGE

PREISTICKER

PARTNERWEBSITES

COMMUNITY

SETI@HOME TEAM

GAMESERVER

PLANET 3D GAMES

KRAWALL NETWORK

archiv

Doping für CPUs - Möglichkeiten der Leistungssteigerung

Von: D'Espice
18. November 2002

Artikel-Index:

Ansätze der Optimierung per Software (Fortsetzung)

Steigerung des Instruction Level Parallelism (ILP)
Eine Ebene über der Optimierung einzelner Instruktionen an bestehende Hardwarestrukturen und Befehlssätze steht der Instruction Level Parallelism (zu Deutsch: Parallelismus der Instruktionen). Dies ist nichts anderes als die Fähigkeit, möglichst viele Instruktionen parallel abarbeiten zu können. Je höher der ILP, desto flotter kann der Prozessor theoretisch arbeiten. Eine Steigerung kann auf verschiedene Arten erreicht werden, beispielsweise Anpassung des Programmcodes an bestimmte Prozessorarchitekturen oder massive Nutzung von Parallelisierungsmechanismen aktueller Prozessoren.
Trotz der Tatsache, dass moderne Prozessoren beim Vorgang der Parallelisierung einen großen Teil der Arbeit von sich aus erledigen (der Pentium 4 sei an dieser Stelle mal außen vor gestellt), entfällt der Löwenanteil immer noch auf den Programmierer/Compiler. Eine Anpassung des Programmcodes an bestimmte generationsübergreifende Prozessoreigenschaften kann beispielsweise den Prozessor effektiver auslasten, was zu einem höheren Durchsatz an gleichzeitig verarbeiteten Instruktionen und somit einem gesteigerten ILP führt.
Prozessoren bringen genügend Möglichkeiten, den Parallelismus zu steigern, beispielsweise Superskalare Arbeitsweise oder Out-of-Order Execution.

Die hierfür verwendeten Hebel sind beispielsweise die superskalare Arbeitsweise oder die Out-of-Order Execution.

Steigerung des Thread Level Parallelism (TLP)
Ähnlich wie der ILP, jedoch wiederum eine Ebene höher als dieser, ist der Thread Level Parallelism (zu Deutsch: Parallelismus der Threads). Ein moderner Computer muss sehr viele Aufgaben gleichzeitig erledigen. So wird beispielsweise während dem Download einer Datei auf die Festplatte auf dieser gleichzeitig ein Anti-Viren Check vorgenommen, während der MP3-hörende Anwender fröhlich an einem Text tippt.
All diese einzelnen Anwendungen haben dutzende von einzelnen Threads gleichzeitig offen, die, um eine optimale Performance zu erreichen, möglichst parallel abgearbeitet werden (jeder dieser Threads führt pro Sekunde selber wiederum tausende bis Millionen von Instruktionen aus). Diesen Faktor der parallelen Abarbeitung von Threads bezeichnet der TLP. Selbstverständlich kann es - wie beim ILP auch - auch hier zu Konflikten zwischen einzelnen Threads oder zu gegenseitigen Abhängigkeiten kommen, die Aufgabe des Compilers liegt an der optimalen Anpassung des Programmcodes an die Gegebenheiten der Hardware

Letztendlich kann auch per Hardware der TLP deutlich erhöht werden, beispielsweise durch mehrere Prozessoren, in Hardware integriertes Multi-Threading oder andere Techniken, auf die ebenfalls im weiteren Verlauf des Artikels noch genauestens eingegangen wird.

VLIW: Very long instruction word
Ein letzter Ansatz der Parallelisierung per Software ist die sog. VLIW-Technik. Diese Art der Optimierung per Compiler ist gleichzeitig die erfolgsversprechendste als auch die radikalste Lösung. Nicht nur braucht der erzeugte Programmcode zwingend speziell angepasste und auf die Software optimierte Hardware, er ist auch noch dazu inkompatibel zum spezifikationskonformem x86 Maschinencode. Effektiv betrachtet arbeiten hier jedoch Hardware und Software Hand in Hand, um eine optimale Ausnutzung der vorhandenen Ressourcen und somit einen möglichst hohen ILP und TLP zu erreichen.

VLIW ist eine Erweiterung der superskalaren Arbeitsweise von Prozessoren und basiert auf folgender Technik:
Bei der bereits bekannten superskalaren Arbeitsweise erfolgt die optimale Anordnung und Zusammenfassung einzelner Instruktionen zur Laufzeit des Programms im Leitwerk des Mikroprozessors. Vorteile sind verhältnismäßig kurze Instruktionen und der somit niedrige Speicherbedarf der Software. Nachteil ist die niemals optimale Ausnutzung der vorhandenen Ressourcen.
Bei VLIW hingegen erfolgt die Optimierung auf die Mikroprozessorarchitektur und Verteilung der parallel ausführbaren Instruktionen auf die einzelnen Recheneinheiten bereits zum Zeitpunkt der Compilierung des Programms in Maschinencode. Der Vorgang der Übersetzung dauert dadurch zwar deutlich länger, die Laufzeiten der daraus entstehenden Programme können hierdurch jedoch drastisch reduziert werden. Ein Nachteil ist hingegen die Länge der einzelnen Instruktionen und der somit gesteigerte Speicherbedarf der Programme.

Seite 7/20

Nach oben