Vandaag, NVIDIA aangekondigd hun nieuwe Ampere architectuur, naast de nieuwe A100 dat het programma wordt uitgevoerd. Het is een belangrijke verbetering ten opzichte van Turing, al een AI-gericht architectuur voeden van datacenters op de high-end en ML-aangedreven raytracing de consument graphics ruimte.
Als u wilt een volledige round-up van alle technische details kunt u lezen NVIDIA ‘ s in-diepte overzicht architectuur. We zullen het afbreken van de meest belangrijke dingen.
De Nieuwe Matrijs Is Enorm
Van de poort, ze gaan helemaal uit met deze nieuwe chip. De vorige generatie Tesla V100 sterven was 815mm op TSMC is al volwassen 14nm proces knooppunt, met van 21,1 miljard transistors. Al vrij groot, maar de A100 zet het te schande met 826mm op TSMC ‘ s 7nm, een veel dichtere proces, en maar liefst 54,2 miljard transistors. Indrukwekkend voor dit nieuwe knooppunt.
Deze nieuwe GPU-functies 19.5 teraflops van de FP32 prestaties, 6,912 CUDA-cores, 40GB geheugen, en 1,6 TB/s geheugen bandbreedte. In een vrij specifieke werklast (sparse-INT8), de A100 eigenlijk scheuren 1 PetaFLOPS van raw berekenen van macht. Natuurlijk, dat is op INT8, maar toch, de kaart is zeer krachtig.
Dan, net als de V100, ze hebben acht van deze Gpu ‘ s gemaakt en een mini-supercomputer die ze verkopen voor $200.000. Je zult waarschijnlijk zien ze komt naar cloud-aanbieders, zoals AWS en Google Cloud Platform snel.
Echter, in tegenstelling tot de V100, dit is niet een enorme GPU—het is eigenlijk de 8 afzonderlijke Gpu ‘ s die kunnen worden gevirtualiseerd en verhuurd op hun eigen voor verschillende taken, samen met 7x hoger geheugen doorvoer op te starten.
Als voor het aanbrengen van al die transistors te gebruiken, de nieuwe chip loopt veel sneller dan de V100. Voor AI opleiding en gevolgtrekking, A100 biedt een 6x speedup voor FP32, 3x voor FP16, en 7x speedup in de inferentie bij het gebruik van al die Gpu ‘ s samen.
Merk op dat de V100 gemarkeerd in de tweede grafiek is de 8-GPU V100-server, niet een enkele V100.
NVIDIA is ook veelbelovend tot 2x speedup in veel HPC workloads:
Als voor de raw TFLOPs nummers, A100 FP64 double precision performance is 20 TFLOPs, vs. 8 voor V100 FP64. Al met al, deze snelheidswinst zijn een echte generaties verbetering ten opzichte van Turing en zijn goed nieuws voor de AI en machine learning space.
TensorFloat-32: Een Nieuw Nummer Formaat Geoptimaliseerd Voor De Tensor Kernen
Met Ampere, NVIDIA is met behulp van een aantal nieuwe indeling ontworpen ter vervanging van de FP32 in bepaalde werkbelasting. In wezen, FP32 maakt gebruik van 8 bits voor het bereik van het aantal (hoe klein of hoe groot kan worden) en 23 bits voor de precisie.
NVIDIA ‘ s claim is dat deze 23 precisie bits, niet volledig nodig voor veel AI-workloads en kunt u vergelijkbare resultaten en veel betere prestaties uit slechts 10 van hen. Dit nieuwe formaat is genoemd Tensor Float 32, en de Tensor Kernen in de A100 geoptimaliseerd zijn om het te behandelen. Dit is, op de top van die krimpt en core count toeneemt, hoe ze het krijgen van de enorme 6x speedup in AI-opleiding.
Zij beweren dat “Gebruikers hoeven niet om eventuele wijzigingen in de code, omdat TF32 alleen uitgevoerd binnen de A100 GPU. TF32 werkt op FP32 ingangen en produceert resultaten in FP32. Niet-tensor activiteiten blijven gebruiken FP32”. Dit betekent dat er een drop-in vervanger voor workloads dat hoeft niet de toegevoegde precisie.
Het vergelijken van FP prestaties op de V100 te TF prestaties op de A100 zie je waar deze enorme snelheidswinst te komen. TF32 is tot tien keer sneller. Natuurlijk, veel van deze is ook te wijten aan de andere verbeteringen in Ampère wordt twee keer zo snel in het algemeen en niet voor een directe vergelijking.
Ze hebben ook een nieuw concept geïntroduceerd genaamd fijnmazig gestructureerde sparse, die bijdraagt tot het berekenen van de prestaties van diepe neurale netwerken. Kortom, bepaalde gewichten zijn minder belangrijk dan de anderen, en de matrix wiskunde kunnen worden gecomprimeerd tot de verbetering van de doorvoer. Terwijl het gooien van gegevens lijkt niet op een geweldig idee, ze beweren dat het geen impact heeft op de juistheid van het getrainde netwerk voor inferencing, en gewoon versnelt het.
Voor Sparse-INT8 berekeningen, de peak performance van een enkele A100 is 1250 TFLOPS, een verbluffend hoog aantal. Natuurlijk, je zal moeilijk worden ingedrukt te vinden een echte werklast zwengelen alleen INT8, maar snelheidswinst zijn snelheidswinst.