Nvidia bietet die „A100 Tensor Core GPU“ auf Basis der Ampere-Architektur fortan auch im PCIe-Format mit 80 statt 40 GB Speicher an. Von dem doppelt so großen Speicher sollen Käufer beim KI-Training vor allem bei besonders großen Modellen profitieren. Support für die Karte gibt es von zahlreichen Unternehmen im Server-Umfeld.
Nach der A100 als SXM4 sowie PCIe und der A100 80GB als SXM4 ist die heute vorgestellte A100 80GB PCIe die vierte Umsetzung der „A100 Tensor Core GPU“.
HBM2e sorgt für 2 TB/s Speicherbandbreite
Die „A100 80GB GPU“ besitzt einen zur „A100 Tensor Core GPU“ vergleichbaren Aufbau, da sich die Veränderungen an der Hardware auf den Speicher beschränken. Bei diesem wechselt Nvidia nach dem SXM4-Modul jetzt auch für die PCIe-Karte von HBM2 zu HBM2e. Bei HBM2e besteht ein Speicherstack aus bis zu acht übereinander gestapelten 16-Gbit-Chips, sodass mit einem Stack bis zu 16 GB statt der 8 GB bei HBM2, der schon bei Volta zum Einsatz kam, möglich sind. Wie bei der „A100 Tensor Core GPU“ sind vermeintlich sechs HBM2e-Stacks rund um die GPU versammelt, tatsächlich handelt es sich aber um fünf Stacks zu je 16 GB, woraus sich die insgesamt 80 GB ergeben, und einen Dummy-Stack, um den Anpressdruck des großen passiven Kühlers auszugleichen. Mit fünf Speicherstacks zu je 410 GB/s knackt Nvidia mit 2,002 TB/s die entsprechende Marke.
Von dem verdoppelten Speicher sollen beim KI-Training vor allem besonders große Modelle profitieren. Schon zur Vorstellung von Ampere hieß es, die Architektur sei für den exponentiell wachsenden Ressourcenbedarf des Trainings neuronaler Netze und das Inferencing im Datacenter entwickelt worden. Beispiele für den Einsatz der 80-GB-Variante liefert der Artikel zur Ankündigung des gleich bestückten SXM4-Moduls.
Passive Karte nutzt Luftstrom im Server
ComputerBase hat von Nvidia bestätigt bekommen, dass die A100 80GB PCIe mit 300 Watt spezifiziert ist. Das sind 50 Watt mehr als bei der A100 PCIe, während bei den SXM4-Modulen keine TDP-Unterscheidung zwischen 40 GB und 80 GB herrscht. Trotz reduzierter TDP wirbt Nvidia mit denselben Leistungsangaben, dabei handelt es sich aber um Peak-Werte.
Die A100 80GB PCIe kommt als zwei Slot hohe, vermeintlich passiv gekühlte Karte daher, die aber vom Luftstrom im Server aktiv gekühlt wird. Unterstützer der Karte im Server-Umfeld sind die Anbieter Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT und Supermicro. Auch Cloud-Anbieter wie Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure sind mit von der Partie.