Deutsch

Ampere: Nvidia bringt A100 mit 80 GB HBM2e als PCIe-Karte

Jun 28, 2021

156

Nvidia bietet die „A100 Tensor Core GPU“ auf Basis der Ampere-Architektur fortan auch im PCIe-Format mit 80 statt 40 GB Speicher an. Von dem doppelt so großen Speicher sollen Käufer beim KI-Training vor allem bei besonders großen Modellen profitieren. Support für die Karte gibt es von zahlreichen Unternehmen im Server-Umfeld.

Nach der A100 als SXM4 sowie PCIe und der A100 80GB als SXM4 ist die heute vorgestellte A100 80GB PCIe die vierte Umsetzung der „A100 Tensor Core GPU“.

HBM2e sorgt für 2 TB/s Speicherbandbreite

Die „A100 80GB GPU“ besitzt einen zur „A100 Tensor Core GPU“ vergleichbaren Aufbau, da sich die Veränderungen an der Hardware auf den Speicher beschränken. Bei diesem wechselt Nvidia nach dem SXM4-Modul jetzt auch für die PCIe-Karte von HBM2 zu HBM2e. Bei HBM2e besteht ein Speicherstack aus bis zu acht übereinander gestapelten 16-Gbit-Chips, sodass mit einem Stack bis zu 16 GB statt der 8 GB bei HBM2, der schon bei Volta zum Einsatz kam, möglich sind. Wie bei der „A100 Tensor Core GPU“ sind vermeintlich sechs HBM2e-Stacks rund um die GPU versammelt, tatsächlich handelt es sich aber um fünf Stacks zu je 16 GB, woraus sich die insgesamt 80 GB ergeben, und einen Dummy-Stack, um den Anpressdruck des großen passiven Kühlers auszugleichen. Mit fünf Speicherstacks zu je 410 GB/s knackt Nvidia mit 2,002 TB/s die entsprechende Marke.

Von dem verdoppelten Speicher sollen beim KI-Training vor allem besonders große Modelle profitieren. Schon zur Vorstellung von Ampere hieß es, die Architektur sei für den exponentiell wachsenden Ressourcenbedarf des Trainings neuronaler Netze und das Inferencing im Datacenter entwickelt worden. Beispiele für den Einsatz der 80-GB-Variante liefert der Artikel zur Ankündigung des gleich bestückten SXM4-Moduls.

Passive Karte nutzt Luftstrom im Server

ComputerBase hat von Nvidia bestätigt bekommen, dass die A100 80GB PCIe mit 300 Watt spezifiziert ist. Das sind 50 Watt mehr als bei der A100 PCIe, während bei den SXM4-Modulen keine TDP-Unterscheidung zwischen 40 GB und 80 GB herrscht. Trotz reduzierter TDP wirbt Nvidia mit denselben Leistungsangaben, dabei handelt es sich aber um Peak-Werte.

Die A100 80GB PCIe kommt als zwei Slot hohe, vermeintlich passiv gekühlte Karte daher, die aber vom Luftstrom im Server aktiv gekühlt wird. Unterstützer der Karte im Server-Umfeld sind die Anbieter Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT und Supermicro. Auch Cloud-Anbieter wie Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure sind mit von der Partie.

A100 80GB PCIe
A100 80GB
A100 PCIe
A100
Tesla V100
Tesla P100

GPU
GA100
GV100
GP100

Architektur
Ampere
Volta
Pascal

Fertigung
TSMC N7
TSMC 12FFN
TSMC 16FF

Transistoren
54,2 Mrd.
21,1 Mrd.
15,3 Mrd.

GPU Die Size
826 mm²
815 mm²
610 mm²

Board
PCIe
SXM4
PCIe
SXM4
SXM2
SXM

TDP
300 Watt
400 Watt
250 Watt
400 Watt
300 Watt

SMs
108
80
56

TPCs
54
40
28

FP32 Cores/SM
64

FP32 Cores/GPU
6.912
5.120
3.584

FP64 Cores/SM (exkl. Tensor)
64

FP64 Cores/GPU (exkl. Tensor)
3.456
2.560
1.792

INT32 Cores/SM
64
NA

INT32 Cores/GPU
6.912
5.120
NA

Tensor Cores/SM
4
8
NA

Tensor Cores/GPU
432
640
NA

GPU Boost Clock
1.410 MHz
1.530 MHz
1.480 MHz

Peak FP16 Tensor TFLOPS
(mit FP16 Accumulate)
312/624*
125
NA

Peak FP16 Tensor TFLOPS
(mit FP32 Accumulate)
312/624*
125
NA

Peak BF16 Tensor TFLOPS
(mit FP32 Accumulate)
312/624*
NA

Peak TF32 Tensor TFLOPS
156/312*
NA

Peak FP64 Tensor TFLOPS
19,5
NA

Peak INT8 Tensor TOPS
624/1.248*
NA

Peak INT4 Tensor TOPS
1.248/2.496*
NA

Peak FP16 TFLOPS (Non-Tensor)
78
31,4
21,2

Peak BF16 TFLOPS (Non-Tensor)
39
NA

Peak FP32 TFLOPS (Non-Tensor)
19,5
15,7
10,6

Peak FP64 TFLOPS (Non-Tensor)
9,7
7,8
5,3

Peak INT32 TOPS
19,5
15,7
NA

Texture Units
432
320
224

Speicher
HBM2e
HBM2

Speicherinterface
5.120 Bit
4.096 Bit

Speichergröße
80 GB
40 GB
16/32 GB
16 GB

Speichertakt
1.594 MHz
1.215 MHz
877,5 MHz
703 MHz

Speicherbandbreite
2.040 GB/s
1.555 GB/s
900 GB/s
720 GB/s

* Mit Sparsity-Beschleunigung