NVIDIA's flagship Datacenter GPU, the Hopper H100, has been pictured in all its glory. (Image Credits: CNET)

NVIDIA Hopper H100 GPU avbildad i all ära: Världens snabbaste 4nm GPU och världens första med HBM3-minne

På GTC 2022, NVIDIA avtäckt dess Hopper H100 GPU, ett datorkraftpaket designat för nästa generations datacenter. Det var ett tag sedan vi pratade om detta mäktiga chip men det ser ut som att NVIDIA gav en närbild av sitt flaggskeppschip till utvalda media.

NVIDIA Hopper H100 GPU: Först med 4nm och HBM3-teknik får högupplösta bilder

CNET lyckats få tag på inte bara grafikkortet som H100 GPU:n är smält på utan även själva H100-chippet. H100 GPU är ett monsterchip som är packat med den senaste 4nm-tekniken och innehåller 80 miljarder transistorer tillsammans med den avancerade HBM3-minnesteknologin. Enligt teknikuttaget är H100 byggd på PG520 PCB-kortet som har över 30 power VRMs och en massiv integrerad interposer som använder TSMC:s CoWoS-teknik för att kombinera Hopper H100 GPU med en 6-stack HBM3-design.

NVIDIA går med på böter på $5,5 miljoner Cryto-intäkter utan att erkänna något fel

NVIDIA Hopper H100 GPU på bilden (Bild: CNET):

Av de sex stackarna hålls två stackar för att säkerställa avkastningen integritet. Men den nya HBM3-standarden tillåter upp till 80 GB kapacitet vid 3 TB/s hastigheter, vilket är galet. Som jämförelse erbjuder det nuvarande snabbaste spelgrafikkortet, RTX 3090 Ti, bara 1 TB/s bandbredd och 24 GB VRAM-kapacitet. Annat än det, packar H100 Hopper GPU också i det senaste FP8-dataformatet, och genom sin nya SXM-anslutning hjälper den till att rymma den 700W kraftdesign som chippet är designat kring.

NVIDIA Hopper H100 GPU-specifikationer i en överblick

Så när det gäller specifikationerna är NVIDIA Hopper GH100 GPU sammansatt av en massiv 144 SM (Streaming Multiprocessor) chiplayout som finns med i totalt 8 GPC. Dessa GPC:er rockar totalt 9 TPC:er som ytterligare består av 2 SM-enheter vardera. Detta ger oss 18 sms per GPC och 144 på hela 8 GPC-konfigurationen. Varje SM består av upp till 128 FP32-enheter vilket borde ge oss totalt 18 432 CUDA-kärnor. Följande är några av de konfigurationer du kan förvänta dig av H100-chippet:

Den fullständiga implementeringen av GH100 GPU inkluderar följande enheter:

NVIDIA GeForce RTX 3090 Ti Custom ‘XOC’ BIOS skjuter effektgränsen till nästan 1000W

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM:er/TPC, 144 SM:er per full GPU
  • 128 FP32 CUDA-kärnor per SM, 18432 FP32 CUDA-kärnor per full GPU
  • 4 fjärde generationens tensorkärnor per SM, 576 per full GPU
  • 6 HBM3- eller HBM2e-stackar, 12 512-bitars minneskontroller
  • 60 MB L2-cache
  • Fjärde generationens NVLink och PCIe Gen 5

NVIDIA H100 GPU med SXM5-kortformfaktor inkluderar följande enheter:

  • 8 GPC, 66 TPC, 2 SMs/TPC, 132 SMs per GPU
  • 128 FP32 CUDA-kärnor per SM, 16896 FP32 CUDA-kärnor per GPU
  • 4 fjärde generationens Tensor Cores per SM, 528 per GPU
  • 80 GB HBM3, 5 HBM3-stackar, 10 512-bitars minneskontroller
  • 50 MB L2-cache
  • Fjärde generationens NVLink och PCIe Gen 5

Detta är en ökning på 2,25 gånger jämfört med hela GA100 GPU-konfigurationen. NVIDIA drar också nytta av fler FP64-, FP16- och Tensor-kärnor inom sin Hopper GPU som skulle öka prestandan oerhört. Och det kommer att bli en nödvändighet för att konkurrera med Intels Ponte Vecchio som också förväntas ha 1:1 FP64.

Cachen är ett annat utrymme där NVIDIA har gett mycket uppmärksamhet och höjt den till 48 MB i Hopper GH100 GPU. Detta är en ökning med 20 % jämfört med cachen på 50 MB som finns på Ampere GA100 GPU och 3 gånger så stor som AMD:s flaggskepp Aldebaran MCM GPU, MI250X.

Avrundat prestandasiffrorna uppåt kommer NVIDIAs GH100 Hopper GPU att erbjuda 4000 TFLOPs av FP8, 2000 TFLOPs av FP16, 1000 TFLOPs av TF32 och 60 TFLOPs av FP64 Compute-prestanda. Dessa rekordhämmande siffror decimerar alla andra HPC-acceleratorer som kom före den. Som jämförelse är detta 3,3 gånger snabbare än NVIDIAs egen A100 GPU och 28% snabbare än AMD:s Instinct MI250X i FP64-datorn. I FP16 compute är H100 GPU:n 3 gånger snabbare än A100 och 5,2 gånger snabbare än MI250X, vilket bokstavligen är galet.

PCIe-varianten som är en nedskuren modell var nyligen listad över i Japan för över 30 000 USD så man kan föreställa sig att SXM-varianten med en tjockare konfiguration lätt kommer att kosta runt $50 grand.

NVIDIA Ampere GA100 GPU-baserad Tesla A100-specifikationer:

NVIDIA Tesla grafikkort NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) Tesla P100
(PCI-Express)
Tesla M40
(PCI-Express)
Tesla K40
(PCI-Express)
GPU GH100 (Hopper) GH100 (Hopper) GA100 (Ampere) GA100 (Ampere) GV100 (Volta) GV100 (Volta) GP100 (Pascal) GP100 (Pascal) GM200 (Maxwell) GK110 (Kepler)
Processnod 4nm 4nm 7nm 7nm 12nm 12nm 16nm 16nm 28nm 28nm
Transistorer 80 miljarder 80 miljarder 54,2 miljarder 54,2 miljarder 21,1 miljarder 21,1 miljarder 15,3 miljarder 15,3 miljarder 8 miljarder 7,1 miljarder
GPU-matrisstorlek 814 mm2 814 mm2 826 mm2 826 mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
SMS 132 114 108 108 80 80 56 56 24 15
TPC:er 66 57 54 54 40 40 28 28 24 15
FP32 CUDA-kärnor per SM 128 128 64 64 64 64 64 64 128 192
FP64 CUDA Cores / SM 128 128 32 32 32 32 32 32 4 64
FP32 CUDA-kärnor 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
FP64 CUDA-kärnor 16896 14592 3456 3456 2560 2560 1792 1792 96 960
Tensor kärnor 528 456 432 432 640 640 N/A N/A N/A N/A
Texturenheter 528 456 432 432 320 320 224 224 192 240
Boost klocka TBD TBD 1410 MHz 1410 MHz 1601 MHz 1530 MHz 1480 MHz 1329 MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 TOPP
4000 TOPP
1600 TOPP
3200 TOPP
1248 TOPP
2496 TOPPAR med Sparsity
1248 TOPP
2496 TOPPAR med Sparsity
130 TOPP 125 TOPP N/A N/A N/A N/A
FP16 Compute 2000 TFLOPs 1600 TFLOPs 312 TFLOPs
624 TFLOPs med Sparsity
312 TFLOPs
624 TFLOPs med Sparsity
32,8 TFLOPs 30,4 TFLOP:s 21,2 TFLOPs 18,7 TFLOPs N/A N/A
FP32 Compute 1000 TFLOPs 800 TFLOPs 156 TFLOP:s
(19,5 TFLOPs standard)
156 TFLOP:s
(19,5 TFLOPs standard)
16,4 TFLOPs 15,7 TFLOPs 10,6 TFLOPs 10,0 TFLOPs 6.8 TFLOPs 5.04 TFLOPs
FP64 Compute 60 TFLOPs 48 TFLOP:s 19,5 TFLOPs
(9,7 TFLOPs standard)
19,5 TFLOPs
(9,7 TFLOPs standard)
8.2 TFLOPs 7,80 TFLOPs 5.30 TFLOPs 4.7 TFLOPs 0,2 TFLOPs 1,68 TFLOPs
Minnesgränssnitt 5120-bitars HBM3 5120-bitars HBM2e 6144-bitars HBM2e 6144-bitars HBM2e 4096-bitars HBM2 4096-bitars HBM2 4096-bitars HBM2 4096-bitars HBM2 384-bitars GDDR5 384-bitars GDDR5
Minnesstorlek Upp till 80 GB HBM3 @ 3,0 Gbps Upp till 80 GB HBM2e @ 2,0 Gbps Upp till 40 GB HBM2 @ 1,6 TB/s
Upp till 80 GB HBM2 @ 1,6 TB/s
Upp till 40 GB HBM2 @ 1,6 TB/s
Upp till 80 GB HBM2 @ 2,0 TB/s
16 GB HBM2 @ 1134 GB/s 16 GB HBM2 @ 900 GB/s 16 GB HBM2 @ 732 GB/s 16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
24 GB GDDR5 @ 288 GB/s 12 GB GDDR5 @ 288 GB/s
L2-cachestorlek 51200 KB 51200 KB 40960 KB 40960 KB 6144 KB 6144 KB 4096 KB 4096 KB 3072 KB 1536 KB
TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W


#NVIDIA #Hopper #H100 #GPU #avbildad #ära #Världens #snabbaste #4nm #GPU #och #världens #första #med #HBM3minne

Leave a Comment

Your email address will not be published.