På GTC 2022, NVIDIA avtäckt dess Hopper H100 GPU, ett datorkraftpaket designat för nästa generations datacenter. Det var ett tag sedan vi pratade om detta mäktiga chip men det ser ut som att NVIDIA gav en närbild av sitt flaggskeppschip till utvalda media.
NVIDIA Hopper H100 GPU: Först med 4nm och HBM3-teknik får högupplösta bilder
CNET lyckats få tag på inte bara grafikkortet som H100 GPU:n är smält på utan även själva H100-chippet. H100 GPU är ett monsterchip som är packat med den senaste 4nm-tekniken och innehåller 80 miljarder transistorer tillsammans med den avancerade HBM3-minnesteknologin. Enligt teknikuttaget är H100 byggd på PG520 PCB-kortet som har över 30 power VRMs och en massiv integrerad interposer som använder TSMC:s CoWoS-teknik för att kombinera Hopper H100 GPU med en 6-stack HBM3-design.
NVIDIA Hopper H100 GPU på bilden (Bild: CNET):
Av de sex stackarna hålls två stackar för att säkerställa avkastningen integritet. Men den nya HBM3-standarden tillåter upp till 80 GB kapacitet vid 3 TB/s hastigheter, vilket är galet. Som jämförelse erbjuder det nuvarande snabbaste spelgrafikkortet, RTX 3090 Ti, bara 1 TB/s bandbredd och 24 GB VRAM-kapacitet. Annat än det, packar H100 Hopper GPU också i det senaste FP8-dataformatet, och genom sin nya SXM-anslutning hjälper den till att rymma den 700W kraftdesign som chippet är designat kring.
NVIDIA Hopper H100 GPU-specifikationer i en överblick
Så när det gäller specifikationerna är NVIDIA Hopper GH100 GPU sammansatt av en massiv 144 SM (Streaming Multiprocessor) chiplayout som finns med i totalt 8 GPC. Dessa GPC:er rockar totalt 9 TPC:er som ytterligare består av 2 SM-enheter vardera. Detta ger oss 18 sms per GPC och 144 på hela 8 GPC-konfigurationen. Varje SM består av upp till 128 FP32-enheter vilket borde ge oss totalt 18 432 CUDA-kärnor. Följande är några av de konfigurationer du kan förvänta dig av H100-chippet:
Den fullständiga implementeringen av GH100 GPU inkluderar följande enheter:
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM:er/TPC, 144 SM:er per full GPU
- 128 FP32 CUDA-kärnor per SM, 18432 FP32 CUDA-kärnor per full GPU
- 4 fjärde generationens tensorkärnor per SM, 576 per full GPU
- 6 HBM3- eller HBM2e-stackar, 12 512-bitars minneskontroller
- 60 MB L2-cache
- Fjärde generationens NVLink och PCIe Gen 5
NVIDIA H100 GPU med SXM5-kortformfaktor inkluderar följande enheter:
- 8 GPC, 66 TPC, 2 SMs/TPC, 132 SMs per GPU
- 128 FP32 CUDA-kärnor per SM, 16896 FP32 CUDA-kärnor per GPU
- 4 fjärde generationens Tensor Cores per SM, 528 per GPU
- 80 GB HBM3, 5 HBM3-stackar, 10 512-bitars minneskontroller
- 50 MB L2-cache
- Fjärde generationens NVLink och PCIe Gen 5
Detta är en ökning på 2,25 gånger jämfört med hela GA100 GPU-konfigurationen. NVIDIA drar också nytta av fler FP64-, FP16- och Tensor-kärnor inom sin Hopper GPU som skulle öka prestandan oerhört. Och det kommer att bli en nödvändighet för att konkurrera med Intels Ponte Vecchio som också förväntas ha 1:1 FP64.
Cachen är ett annat utrymme där NVIDIA har gett mycket uppmärksamhet och höjt den till 48 MB i Hopper GH100 GPU. Detta är en ökning med 20 % jämfört med cachen på 50 MB som finns på Ampere GA100 GPU och 3 gånger så stor som AMD:s flaggskepp Aldebaran MCM GPU, MI250X.
Avrundat prestandasiffrorna uppåt kommer NVIDIAs GH100 Hopper GPU att erbjuda 4000 TFLOPs av FP8, 2000 TFLOPs av FP16, 1000 TFLOPs av TF32 och 60 TFLOPs av FP64 Compute-prestanda. Dessa rekordhämmande siffror decimerar alla andra HPC-acceleratorer som kom före den. Som jämförelse är detta 3,3 gånger snabbare än NVIDIAs egen A100 GPU och 28% snabbare än AMD:s Instinct MI250X i FP64-datorn. I FP16 compute är H100 GPU:n 3 gånger snabbare än A100 och 5,2 gånger snabbare än MI250X, vilket bokstavligen är galet.
PCIe-varianten som är en nedskuren modell var nyligen listad över i Japan för över 30 000 USD så man kan föreställa sig att SXM-varianten med en tjockare konfiguration lätt kommer att kosta runt $50 grand.
NVIDIA Ampere GA100 GPU-baserad Tesla A100-specifikationer:
NVIDIA Tesla grafikkort | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla K40 (PCI-Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (Hopper) | GH100 (Hopper) | GA100 (Ampere) | GA100 (Ampere) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascal) | GP100 (Pascal) | GM200 (Maxwell) | GK110 (Kepler) |
Processnod | 4nm | 4nm | 7nm | 7nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
Transistorer | 80 miljarder | 80 miljarder | 54,2 miljarder | 54,2 miljarder | 21,1 miljarder | 21,1 miljarder | 15,3 miljarder | 15,3 miljarder | 8 miljarder | 7,1 miljarder |
GPU-matrisstorlek | 814 mm2 | 814 mm2 | 826 mm2 | 826 mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMS | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPC:er | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
FP32 CUDA-kärnor per SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
FP64 CUDA Cores / SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
FP32 CUDA-kärnor | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
FP64 CUDA-kärnor | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Tensor kärnor | 528 | 456 | 432 | 432 | 640 | 640 | N/A | N/A | N/A | N/A |
Texturenheter | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Boost klocka | TBD | TBD | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329 MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 2000 TOPP 4000 TOPP |
1600 TOPP 3200 TOPP |
1248 TOPP 2496 TOPPAR med Sparsity |
1248 TOPP 2496 TOPPAR med Sparsity |
130 TOPP | 125 TOPP | N/A | N/A | N/A | N/A |
FP16 Compute | 2000 TFLOPs | 1600 TFLOPs | 312 TFLOPs 624 TFLOPs med Sparsity |
312 TFLOPs 624 TFLOPs med Sparsity |
32,8 TFLOPs | 30,4 TFLOP:s | 21,2 TFLOPs | 18,7 TFLOPs | N/A | N/A |
FP32 Compute | 1000 TFLOPs | 800 TFLOPs | 156 TFLOP:s (19,5 TFLOPs standard) |
156 TFLOP:s (19,5 TFLOPs standard) |
16,4 TFLOPs | 15,7 TFLOPs | 10,6 TFLOPs | 10,0 TFLOPs | 6.8 TFLOPs | 5.04 TFLOPs |
FP64 Compute | 60 TFLOPs | 48 TFLOP:s | 19,5 TFLOPs (9,7 TFLOPs standard) |
19,5 TFLOPs (9,7 TFLOPs standard) |
8.2 TFLOPs | 7,80 TFLOPs | 5.30 TFLOPs | 4.7 TFLOPs | 0,2 TFLOPs | 1,68 TFLOPs |
Minnesgränssnitt | 5120-bitars HBM3 | 5120-bitars HBM2e | 6144-bitars HBM2e | 6144-bitars HBM2e | 4096-bitars HBM2 | 4096-bitars HBM2 | 4096-bitars HBM2 | 4096-bitars HBM2 | 384-bitars GDDR5 | 384-bitars GDDR5 |
Minnesstorlek | Upp till 80 GB HBM3 @ 3,0 Gbps | Upp till 80 GB HBM2e @ 2,0 Gbps | Upp till 40 GB HBM2 @ 1,6 TB/s Upp till 80 GB HBM2 @ 1,6 TB/s |
Upp till 40 GB HBM2 @ 1,6 TB/s Upp till 80 GB HBM2 @ 2,0 TB/s |
16 GB HBM2 @ 1134 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s |
24 GB GDDR5 @ 288 GB/s | 12 GB GDDR5 @ 288 GB/s |
L2-cachestorlek | 51200 KB | 51200 KB | 40960 KB | 40960 KB | 6144 KB | 6144 KB | 4096 KB | 4096 KB | 3072 KB | 1536 KB |
TDP | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |
#NVIDIA #Hopper #H100 #GPU #avbildad #ära #Världens #snabbaste #4nm #GPU #och #världens #första #med #HBM3minne