Hopper (микроархитектура)

Hopper — микроархитектура профессиональных графических процессоров класса Server/Datacenter представленная в марте 2022 года, и разработанная корпорацией NVIDIA Corporation в качестве преемника микроархитектуры Ampere. Она названа в честь Грейс Мюррей Хоппер (англ. Grace Murray Hopper) — американской учёной в области информатики и контр-адмирала Военно-морских сил США, которая была одной из первых программистов компьютера Марк I.

Nvidia Hopper
Кодовое имяGH100
Дата выпускаМарт 2022 (NVIDIA H100)
ПроизводителиTSMC (4 нм)
Тип памятиHBM3
Ampere (consumer, professional),
Volta (professional)
Blackwell

Микроархитектура Hopper с тензорными ядрами была анонсирована в конце марта 2022 года и впервые появилась в ускорителе GPGPU-вычислений уровня дата-центра NVIDIA H100 с 80 Гбайт HBM3 памяти, который содержит порядка 80 млрд транзисторов. Ускорители NVIDIA H100 например используются в HPC-серверах Nvidia DGX H100 для машинного обучения систем искусственного интеллекта[1][2].

Не существует массовых видеокарт десктопного уровня серии GeForce на базе микроархитектуры Hopper. В сентябре же 2022 года были представлены графические ускорители десктопного уровня серии GeForce RTX 40 с упрощённой микроархитектурой Ada Lovelace, названной в честь математика Ады Лавлейс, которая также пришли на смену микроархитектуры Ampere[3].

Технические подробности

Архитектурные усовершенствования микроархитектуры Hopper включают следующее:

  • CUDA Compute Capability 9.0
  • Память с высокой пропускной способностью 3-го поколения (HBM3).
  • NVLink 4.0: шина с высокой пропускной способностью между центральным процессором и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достижимы при использовании PCI Express; обеспечивает скорость 50 Гбайт/с на один канал и до 900 Гбайт/с (18 × 50 Гбайт/с) на один GPU.
  • Тензорные ядра: Тензорное ядро ​​— это объект, который умножает две матрицы FP16 4×4, а затем добавляет к результату третью матрицу FP16 или FP32 с помощью операций умножения примесей и получает результат FP32, который при необходимости можно понизить до результатов FP16. Тензорные ядра предназначены для ускорения обучения нейронных сетей.

Спецификации

Сравнительная таблица GP100, GV100, GA100 и GH100[4][5]

GPU featuresNVIDIA Tesla P100NVIDIA Tesla V100NVIDIA A100NVIDIA H100
GPU codenameGP100GV100GA100GH100
GPU architectureNVIDIA PascalNVIDIA VoltaNVIDIA AmpereNVIDIA Hopper
Compute capability6.07.08.09.0
Threads / warp32323232
Max warps / SM64646464
Max threads / SM2048204820482048
Max thread blocks / SM32323232
Max Thread Blocks / Thread Block ClustersN/AN/AN/A16
Max 32-bit registers / SM65536655366553665536
Max registers / block65536655366553665536
Max registers / thread255255255255
Max thread block size1024102410241024
FP32 cores / SM646464128
Ratio of SM registers to FP32 cores102410241024512
Shared Memory Size / SM64 KBConfigurable up to 96 KBConfigurable up to 164 KBConfigurable up to 228 KB

Матрица сравнения поддержания точности вычислений[6][7]

Supported CUDA Core PrecisionsSupported Tensor Core Precisions
FP8FP16FP32FP64INT1INT4INT8TF32BF16FP8FP16FP32FP64INT1INT4INT8TF32BF16
NVIDIA Tesla P4НетНетДаДаНетНетДаНетНетНетНетНетНетНетНетНетНетНет
NVIDIA P100НетДаДаДаНетНетНетНетНетНетНетНетНетНетНетНетНетНет
NVIDIA VoltaНетДаДаДаНетНетДаНетНетНетДаНетНетНетНетНетНетНет
NVIDIA TuringНетДаДаДаНетНетДаНетНетНетДаНетНетДаДаДаНетНет
NVIDIA A100НетДаДаДаНетНетДаНетДаНетДаНетДаДаДаДаДаДа
NVIDIA H100НетДаДаДаНетНетДаНетДаДаДаНетДаНетНетДаДаДа

Обозначение:

  • FPnn: floating point with nn bits
  • INTn: integer with n bits
  • INT1: binary
  • TF32: TensorFloat32
  • BF16: bfloat16

Сравнение мощностей декодирования

ВидеоH.264 decode (1080p30)H.265 (HEVC) decode (1080p30)VP9 decode (1080p30)
V100162222
A10075157108
H100170340260
Изображение/сек[5]JPEG 4:4:4 decode(1080p)JPEG 4:2:0 decode(1080p)
A10014902950
H10033106350

GPGPU-ускорители

Ускорители GPGPU-вычислений с тензорными ядрами, в которых используются чипы с микроархитектурой Hopper:

Примечания

Ссылки