News Nvidia zeigt Monster-GPU GV100 Volta mit 5376 Shadern und 16GB HBM2 auf 815 mm² Chip

User-News

Von Complicated

Hinweis: Diese "User-News" wurde nicht von der Planet 3DNow! Redaktion veröffentlicht, sondern vom oben genannten Leser, der persönlich für den hier veröffentlichten Inhalt haftet.
Nvidias CEO Jen-Hsun Huang zeigte auf der GTC 2017 die neueste GPU seines Unternehmens, den GV100 aus der Volta-Generation. Der Nachfolger des GP100 der aktuellen Pascal-Generation beeindruckt mit seinen Eckdaten. So kommt der Chip auf eine Fäche von 815 mm² und beherbergt 21,1 Milliarden Transistoren, die eine theoretische Rechenleistung von 15 TFlops bei einfacher Genauigkeit (FP32) und 7,5 TFlops bei doppelter Genauigkeit (FP64) erbringen.

Gefertigt wird der Chip von TSMC in einem neuen Verfahren welches als 12-Nanometer-FFN bezeichnet wird. Das erste Produkt in Form der Server-GPU Tesla V100 soll ab dem dritten Quartal 2017 verfügbar sein. Der V100 soll dabei 5120 Shader-Kerne von den verbauten 5376 aktiviert haben. Außerdem sind 320 Textureinheiten, ein 20 MByte großes Register File und 16 MByte Cache vorhanden. Ebenfalls mit an Board ist NVlink 2.0 für eine Anbindung mit anderen Tesla GPUs mit bis zu 300 Gbyte/s. Der 16 GByte Speicher setzt sich zusammen aus 4x4-Hi Stacks HBM2 die gemeinsam mit der GPU auf dem Interposer sitzen. Der HBM2 Speicher ist von Samsung gefertigt und erreicht eine Transferrate von bis zu 900 GB/s über insgesamt 4096-bit Speicherinterface. Die TDP wird mit 300W angegeben.

Überraschend sind auf dem GV100 640 Tensor-Cores verbaut, die auf Deep Learning spezialisiert sind und eine Rechenleistung von 120 Tensor-TFlops erreichen.

Ein Datenblatt stellt Nvidia im Developerbereich zur Verfügung: https://devblogs.nvidia.com/parallelforall/inside-volta/

SXM2-VoltaChipDetails.png
 
Zuletzt bearbeitet:
Weiss man denn schon näheres was so ein Tensor Core macht ?

Im Grunde ist GV also ein optimierter Pascal-Refresh mit optimierter Fertigung aber in gleicher Strukturbreite (quasi ein 16nm+, die 12nm sind reines Marketing gewäsch)

Damit stellt sich vor allem die Frage welche Design-Optimierungen bringen was (performance technisch)
 
Weiss man denn schon näheres was so ein Tensor Core macht ?
Laut nVidia Schaubild sind das Fused Multiply Add Operationen von 4x4 Matrizen mit FP16 nach FP32.
Bei AMD CPUs gibt/gab es z.B. FMA4 für a=b*c+d, allerdings ist das in den CPUs natürlich nicht für die 4x4 sondern seriell.

update:
interessant in der Keynote von der GTC 2017 war zu hören, dass der CEO zunächst von der erweiterten ISA, den Cuda Operations mit Bezeichnung Tensor Core spricht. Vielleicht steck da dahinter dass das weniger eine dedizierte Funktionseinheit als denn eine Erweiterung der bestehenden CUs um diese Instruktionen ist. Auf den Folien und im Titel kommt es wie spezielle Cores rüber. Wahrscheinlich muss man die eigentlichen Computeinheiten je Shadermodul zu wenigen grossen "virtuellen" Tensor Cores zusammen fassen.
 
Zuletzt bearbeitet:
Zurück
Oben Unten