AMD Catalyst Omega: Spezialedition vom Treiberpaket bringt Downsampling f체r Radeons und viele weitere Neuerungen

Artikel-Index:

OpenCL 2.0 & Entwickler-Tools

Tools f체r Spieleentwickler

Im Gegen짯satz zu NVI짯DI짯As Black-Box-Stra짯te짯gie bei der Imple짯men짯tie짯rung von Game짯Works-Effek짯ten in PC-Spie짯le setzt AMD beim eige짯nen Rade짯on SDK auf die frei zug채ng짯li짯che Bereit짯stel짯lung von Quell짯code f체r die ein짯zel짯nen Effek짯te. Ent짯wick짯ler짯stu짯di짯os k철n짯nen die짯sen Code als Basis ver짯wen짯den und nach den eige짯nen Bed체rf짯nis짯sen anpas짯sen und opti짯mie짯ren. Teil die짯ser Effek짯te ist auch die Haar짯si짯mu짯la짯ti짯on Tress짯FX, mit der Lara Croft 2013 erst짯mals rea짯li짯t채ts짯na짯he Haa짯re erhielt. Mit der Ver짯si짯on 3.0 kann Tress짯FX jetzt auch f체r die Simu짯la짯ti짯on von Fell ver짯wen짯det wer짯den. Ein ein짯spre짯chen짯des Demo짯vi짯deo soll im Lau짯fe des Tages ver짯f체g짯bar wer짯den. Sel짯bi짯ges gilt f체r den Quellcode.

F체r die Opti짯mie짯rung von PC-Spie짯len und ande짯ren 3D-Anwen짯dun짯gen stellt AMD das Tool GPU Perf짯Stu짯dio bereit. Die wich짯tigs짯te Neue짯rung in Ver짯si짯on 3.1 d체rf짯te die Unter짯st체t짯zung f체r die eige짯ne 3D-API Man짯t짯le sein. Zudem wur짯de neben all짯ge짯mei짯nen Opti짯mie짯run짯gen ein GPU Shader Ana짯ly짯zer inte짯griert und die OpenGL-Unter짯st체t짯zung auf Ver짯si짯on 4.4 erwei짯tert. Die neue Ver짯si짯on soll noch heu짯te zum Down짯load auf der Ent짯wick짯ler짯sei짯te von AMD bereit짯ge짯stellt werden.

OpenCL 2.0

Abseits von 3D-Anwen짯dun짯gen setzt AMD f체r die Aus짯la짯ge짯rung von Berech짯nun짯gen von der CPU auf die GPU in ers짯ter Linie auf Open짯CL. Mit dem Cata짯lyst Ome짯ga lie짯fert der klei짯ne x86-Rie짯se den ers짯ten sta짯bi짯len Trei짯ber mit voll짯st채n짯di짯ger Unter짯st체t짯zung f체r die OpenCL2.0멌ore-Features und eini짯ge her짯stel짯ler짯spe짯zi짯fi짯sche Erwei짯te짯run짯gen. Das zuge짯h철짯ri짯ge APP SDK 3.0 mit짯samt der f체r Ent짯wick짯ler wich짯ti짯gen aktua짯li짯sier짯ten Doku짯men짯ta짯ti짯on wird eben짯falls im Lau짯fe des Tages ver짯철f짯fent짯licht. Dar짯in sol짯len dann auch Code짯bei짯spie짯le ent짯hal짯ten sein, um inter짯es짯sier짯ten Ent짯wick짯lern den Ein짯stieg in Ver짯si짯on 2.0 der Open Com짯pu짯ting Lan짯guage zu erleich짯tern. Wel짯che Hard짯ware kom짯pa짯ti짯bel zum OpenCL2.0멣tandard ist, bleibt bis dahin unge짯kl채rt. Aktu짯ell deu짯tet alles dar짯auf hin, dass ledig짯lich die Kaveri-APUs sowie Gra짯fik짯kar짯ten auf Basis der j체n짯ge짯ren GCN-GPUs (Ton짯ga, Hawaii und Bon짯aire) 체ber die not짯wen짯di짯gen Hard짯ware-Vor짯aus짯set짯zun짯gen ver짯f체짯gen g채nz짯lich klar ist die Situa짯ti짯on aber nicht. Im Vor짯lauf wur짯den bereits Blogs zu eini짯gen wich짯ti짯gen Neue짯run짯gen ver짯철f짯fent짯licht (Shared Vir짯tu짯al Memo짯ry, Pipes, Device Enqueue and Work짯group Built-in Func짯tions).

Anhand der Anwen짯dung Corel AfterShot Pro 2.1.1.9 (64-Bit-Ver짯si짯on), die dem Her짯stel짯ler zufol짯ge Open짯CL 2.0 nut짯zen kann, haben wir einen Ver짯gleich (Test짯sys짯tem) zwi짯schen den Lauf짯zeit짯um짯ge짯bun짯gen mit (Open짯CL 2.0 Ver짯si짯on 1642.5, Cata짯lyst Ome짯ga) und ohne Unter짯st체t짯zung f체r Open짯CL 2.0 (Open짯CL 1.2 Ver짯si짯on 1445.5, Cata짯lyst 14.4 WHQL) vor짯ge짯nom짯men. Da uns kei짯ne genaue Auf짯lis짯tung dar짯체ber vor짯liegt, wel짯che Fil짯ter von Corel wie umge짯setzt wur짯den, haben wir uns f체r den Fil짯ter 쐋oka짯ler Kon짯trast ent짯schie짯den. Die짯ser wur짯de n채m짯lich zum 쏫averi-Start von AMD zur Demons짯tra짯ti짯on der HSA-beschleu짯nig짯ten Open짯CL-Lauf짯zeit짯um짯ge짯bung her짯an짯ge짯zo짯gen. Laut dama짯li짯gem Review짯er Gui짯de soll die Imple짯men짯tie짯rung des Fil짯ters von Shared Vir짯tu짯al Memo짯ry pro짯fi짯tie짯ren k철n짯nen, was Teil von Open짯CL 2.0 ist und von 쏫averi in Form des HSA-Fea짯tures hUMA unter짯st체tzt wird. Damals war die짯ser Fil짯ter noch nicht Bestand짯teil von AfterShot Pro, wes짯halb von der Pres짯se Modi짯fi짯ka짯tio짯nen am Pro짯gramm vor짯ge짯nom짯men wer짯den muss짯ten, um den Fil짯ter ver짯wen짯den zu k철n짯nen. In Ver짯si짯on 2.x geh철rt er jetzt aber zum nor짯ma짯len Funk짯ti짯ons짯um짯fang des Bild짯be짯ar짯bei짯tungs짯pro짯gramms. Als Bench짯mark dient die Anwen짯dung des bereits erw채hn짯ten Fil짯ters 쐋oka짯ler Kon짯trast auf 21 Bil짯der, die im RAW-For짯mat vor짯lie짯gen und eben짯falls aus dem dama짯li짯gen Bench짯mark짯pa짯ket von AMD stam짯men, sowie deren Aus짯ga짯be im JPEG-For짯mat. Nach Been짯di짯gung der Umwand짯lung zeigt AfterShot Pro die ben철짯tig짯te Gesamt짯zeit an, wel짯che wir notieren.

Kom짯men allein die zwei 쏶teamroller-Module der APU A10-7850K zum Ein짯satz, dau짯ert die Umwand짯lung zwi짯schen 12,952 und 13,406 s, wobei alle vier x86-Ker짯ne voll aus짯ge짯las짯tet wer짯den. Mit Hil짯fe der OpenCL1.2멊eschleunigung hal짯biert sich die Berech짯nungs짯zeit auf 5,909 bis 7,660 s, was auf dem Niveau liegt, wel짯ches damals mit der AfterShot-Pro-Pres짯se짯ver짯si짯on und der HSA-beschleu짯nig짯ten Open짯CL-Lauf짯zeit짯um짯ge짯bung erzielt wer짯den konn짯te. Hier짯bei spielt es in unse짯ren Mes짯sun짯gen kei짯ne Rol짯le, wel짯che Open짯CL-Beschleu짯ni짯gungs짯stu짯fe in AfterShot Pro 2 gew채hlt ist. Dar짯an 채ndert sich bei Ver짯wen짯dung der OpenCL2.0멛aufzeitumgebung des Cata짯lyst Ome짯ga kaum etwas. Auch hier beob짯ach짯ten wir star짯ke Schwan짯kun짯gen zwi짯schen den ein짯zel짯nen Mes짯sun짯gen bei glei짯cher Beschleu짯ni짯gungs짯stu짯fe. Wel짯che Open짯CL-Stu짯fe akti짯viert ist, spielt eben짯falls kaum eine Rol짯le. 횥ber alle vier Stu짯fen mit jeweils drei Mes짯sun짯gen schwan짯ken die Ergeb짯nis짯se zwi짯schen 5,845 und 6,989 s.

Eine m철g짯li짯che Erkl채짯rung f체r die짯ses Ergeb짯nis ist, dass laut dem dama짯li짯gen Review짯er Gui짯de Shared Vir짯tu짯al Memo짯ry in ers짯ter Linie als M철g짯lich짯keit beschrie짯ben wird, die Ent짯wick짯lungs짯zeit zu ver짯k체r짯zen und Opti짯mie짯run짯gen zu ver짯ein짯fa짯chen. Wird dem짯nach ent짯spre짯chend viel Zeit in die Opti짯mie짯rung der OpenCL1.2멗mplementierung gesteckt, kann die짯se eine mit einer OpenCL2.0멗mplementierung ver짯gleich짯ba짯re Per짯for짯mance errei짯chen. Haupt짯vor짯teil von Open짯CL 2.0 w채re dem짯nach die ver짯k체rz짯te Ent짯wick짯lungs짯zeit, wel짯che f체r die Errei짯chung eines bestimm짯ten Ziels ben철짯tigt wird.

Was aller짯dings wei짯ter짯hin auf sich war짯ten l채sst, ist die HSA-Lauf짯zeit짯um짯ge짯bung als opti짯mier짯ter Unter짯bau f체r Open짯CL. HSA exis짯tiert abge짯se짯hen von der Open-Source-Imple짯men짯tie짯rung f체r Linux, die sich aktu짯ell aus짯schlie횩짯lich an Ent짯wick짯ler rich짯tet, somit f체r den End짯kun짯den wei짯ter짯hin nur auf bun짯ten Foli짯en. AMD hat uns in die짯sem Zusam짯men짯hang best채짯tigt, dass der mit dem Cata짯lyst-Trei짯ber짯pa짯ket aus짯ge짯lie짯fer짯te JPEG-Deco짯der Open짯CL nutzt und nicht wie anfangs komu짯ni짯ziert HSA.

CodeXL 1.6

Das Tool AMD CodeXL, wel짯ches kos짯ten짯los zum Ana짯ly짯sie짯ren und Debug짯gen von Open짯CL-Ker짯nel bereit짯ge짯stellt wird, bie짯tet mit der neu짯en Ver짯si짯on 1.6 neben der Unter짯st체t짯zung f체r Open짯CL 2.0 auch die M철g짯lich짯keit zur Mes짯sung von Leis짯tungs짯auf짯nah짯me, Takt짯fre짯quen짯zen, Span짯nun짯gen und Tem짯pe짯ra짯tu짯ren ein짯zel짯ner Funk짯ti짯ons짯ein짯hei짯ten einer APU an. Damit k철n짯nen Ent짯wick짯ler fort짯an nicht nur die Aus짯f체h짯rungs짯ge짯schwin짯dig짯keit des Codes ana짯ly짯sie짯ren, son짯dern auch des짯sen Ener짯gie짯ef짯fi짯zi짯enz. Dies d체rf짯te ins짯be짯son짯de짯re bei der Ent짯schei짯dung wich짯tig sein, wel짯che Teil짯be짯rech짯nun짯gen auf den CPU-Ker짯nen aus짯ge짯f체hrt und wel짯che auf die GPU aus짯ge짯la짯gert wer짯den. Die Ver짯si짯on 1.6 von CodeXL unter짯st체tzt die짯se Funk짯tio짯na짯li짯t채t f체r die APUs Kaveri und Mullins/Beema. Ver짯철f짯fent짯licht wer짯den soll die neue Ver짯si짯on am 15. Dezember.

Auf der letz짯ten Sei짯te fin짯det Ihr schlie횩짯lich den voll짯st채n짯di짯gen Foliensatz.