Ampere (microarquitectura)

Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing. Se anunció oficialmente el 14 de mayo de 2020 y lleva el nombre del matemático y físico francés André-Marie Ampère.[1][2]

Ampere
Información
TipoMicroarquitectura
DesarrolladorNvidia
Fabricante
Fecha de lanzamiento14 de mayo de 2020 (4 años)
Datos técnicos
MemoriaGDDR6
GDDR6X
Caché L1128 KB (por SM)
Caché L22 MB to 6 MB
Usado en
Serie GeForce 30
Serie RTX A
A100
Grabado de André-Marie Ampère, epónimo de arquitectura.

Nvidia anunció las GPU de consumo de la serie GeForce 30 con arquitectura Ampere en un evento especial de GeForce el 1 de septiembre de 2020.[3][4]​ Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020.[5]​ Las tarjetas gráficas Mobile RTX y la RTX 3060 basada en la arquitectura Ampere se revelaron el 12 de enero de 2021.[6]

Nvidia anunció el sucesor de Ampere, Hopper, en GTC 2022 y "Ampere Next Next" para un lanzamiento de 2024 en GPU Technology Conference 2021.

Detalles

Las mejoras arquitectónicas de la arquitectura Ampere incluyen lo siguiente:

  • CUDA Compute Capability 8.0 para A100 y 8.6 para la serie GeForce 30[7]
  • Proceso FinFET de 7 nm de TSMC para A100
  • Versión personalizada del proceso de 8 nm de Samsung (8N) para la serie GeForce 30[8]
  • Núcleos Tensor de tercera generación con compatibilidad con FP16, bfloat16, TensorFloat-32 (TF32) y FP64 y aceleración reducida.[9]​ Los núcleos Tensor individuales tienen 256 operaciones FP16 FMA por segundo, potencia de procesamiento 4x (solo GA100, 2x en GA10x) en comparación con las generaciones anteriores de Tensor Core; el Tensor Core Count se reduce a uno por SM.
  • Núcleos de trazado de rayos de segunda generación; Trazado de rayos, sombreado y cómputo simultáneos para la serie GeForce 30
  • Memoria de alto ancho de banda 2 (HBM2) en A100 de 40 GB y A100 de 80 GB
  • Memoria GDDR6X para GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
  • Núcleos FP32 dobles por SM en GPU GA10x
  • NVLink 3.0 con un rendimiento de 50 Gbit/s por par[9]
  • PCI Express 4.0 con soporte SR-IOV (SR-IOV está reservado solo para A100)
  • Función de partición de GPU y virtualización de GPU de múltiples instancias (MIG) en A100 que admite hasta siete instancias
  • PureVideo conjunto de características K decodificación de video de hardware con decodificación de hardware AV1[10]​ para la serie GeForce 30 y conjunto de características J para A100
  • 5 NVDEC para A100
  • Agrega nueva decodificación JPEG de 5 núcleos basada en hardware (NVJPG) con YUV420, YUV422, YUV444, YUV400, RGBA. No debe confundirse con Nvidia NVJPEG (biblioteca acelerada por GPU para codificación/descodificación de JPEG)

Chips

  • GA100[11]
  • GA102
  • GA103
  • GA104
  • GA106
  • GA107

Comparación de la capacidad informática: GP100 vs GV100 vs GA100[12]

Características de la GPUNVIDIA Tesla P100NVIDIA Tesla V100NVIDIA A100
Nombre en clave GPUGP100GV100GA100
Arquitectura GPUNVIDIA PascalNVIDIA VoltaNVIDIA Ampere
Capacidad de cómputo6.07.08.0
Hilos / urdimbre323232
Deformaciones máximas / SM646464
Max hilos / SM204820482048
Max bloques de rosca / SM323232
Registros máximos de 32 bits/SM655366553665536
Max registros / bloque655366553665536
Max registros / subproceso255255255
Tamaño máximo de bloque de hilo102410241024
Núcleos FP32 / SM646464
Relación de registros SM a núcleos FP32102410241024
Tamaño de memoria compartida/SM64 KBConfigurable hasta 96 KBConfigurable hasta 164 KB

Comparación de matriz de soporte de precisión[13][14]

Precisiones principales de CUDA admitidasPrecisiones de núcleo de Tensor admitidas
FP16FP32FP64INT1INT4INT8TF32BF16FP16FP32FP64INT1INT4INT8TF32BF16
NVIDIA Tesla P4NoNoNoNoNoNoNoNoNoNoNoNoNo
NVIDIA P100NoNoNoNoNoNoNoNoNoNoNoNoNo
NVIDIA VoltaNoNoNoNoNoNoNoNoNoNoNo
Nvidia TuringNoNoNoNoNoNoNoNo
NVIDIA A100NoNoNoNo

Leyenda:

  • FPnn: coma flotante con nn bits
  • INTn: entero con n bits
  • INT1: binario
  • TF32: TensorFloat32
  • BF16: bflotador16

Comparación del rendimiento de decodificación

Flujos simultáneosDecodificación H.264 (1080p30)Decodificación H.265 (HEVC) (1080p30)Decodificación VP9 (1080p30)
V100162222
A10075157108

Pastillas Ampere

PastillaGA100[15]GA102[16]GA103[17]GA104[18]GA106[19]GA107[20]GA10B[21]GA10F
Tamaño del pastilla826 mm2628 mm2496 mm2392 mm2276 mm2200 mm2??
Transistores54.2MM28.3MM22MM17.4MM12MM8.7MM??
Densidad de transistores65.6 MTr/mm245.1 MTr/mm244.4 MTr/mm244.4 MTr/mm243.5 MTr/mm243.5 MTr/mm2??
Clústeres de procesamiento de gráficos (GPC)87663221
Multiprocesadores de transmisión (SM)12884604830201612
Núcleos CUDA1228810752768061443480256020481536
Unidades de mapeo de texturas (TMU)512336240192120806448
Unidades de salida de renderizado (ROP)192112969648323216
Núcleos Tensor512336240192120806448
Núcleos RTN/A8460483020812
Caché L124 MB10.5 MB7.5 MB6 MB3 MB2.5 MB3 MB?
192 KB
por SM
128 KB por SM192 KB
por SM
?
Caché L240 MB6 MB4 MB4 MB3 MB2 MB4 MB?

Acelerador A100 y DGX A100

El acelerador A100 basado en Ampere se anunció y lanzó el 14 de mayo de 2020.[9]​ El A100 cuenta con 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA, 40 GB de memoria gráfica y 1,6 TB/s de ancho de banda de memoria gráfica.[22]​ Inicialmente, el acelerador A100 solo estaba disponible en la tercera generación del servidor DGX, incluidos 8 A100.[9]​ El DGX A100 también incluye 15 TB de almacenamiento PCIe gen 4 NVMe,[22]​ dos CPU AMD Rome 7742 de 64 núcleos, 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox. El precio inicial de la DGX A100 fue de $199 000.[9]

Comparación de aceleradores utilizados en DGX:[23][24][25]


Acelerador
H100
A100 80 GB
A100 40 GB
V100 32 GB
V100 16 GB
P100
ArquitecturaZócaloFP32
CUDA
Cores
FP64 Cores
(excl. Tensor)
Mixed
INT32/FP32
Cores
INT32
Cores
Reloj turboReloj de la memoriaAncho del bus de la memoriaAncho de banda de la memoriaVRAMPrecisión simple
(FP32)
Precisión doble
(FP64)
INT8
(non-Tensor)
INT8
Dense Tensor
INT32FP16FP16
Dense Tensor
bfloat16
Dense Tensor
TensorFloat-32
(TF32)
Dense Tensor
FP64
Dense Tensor
Interconnect
(NVLink)
GPUTamaño de caché L1Tamaño de caché L2TDPTamaño del chip GPUTransistoresProceso de fabricación
HopperSXM516896460816896N/A1780 MHz4.8Gbit/s HBM35120-bit3072 GB/sec80 GB60 TFLOPs30 TFLOPsN/A4000 TOPsN/AN/A2000 TFLOPs2000 TFLOPs1000 TFLOPs60 TFLOPs900 GB/secGH10025344 KB (192 KBx132)51200 KB700 W814 mm280 000 millonesTSMC 4 nm N4
AmpereSXM4691234566912N/A1410 MHz3.2 Gbit/s HBM25120-bit2039 GB/sec80 GB19.5 TFLOPs9.7 TFLOPsN/A624 TOPs19.5 TOPs78 TFLOPs312 TFLOPs312 TFLOPs156 TFLOPs19.5 TFLOPs600 GB/sGA10020736 KB (192 KBx108)40960 KB400 W826 mm254 200 millonesTSMC 7 nm N7
AmpereSXM4691234566912N/A1410 MHz2.4Gbit/s HBM25120-bit1555 GB/s40 GB19.5 TFLOPs9.7 TFLOPsN/A624 TOPs19.5 TOPs78 TFLOPs312 TFLOPs312 TFLOPs156 TFLOPs19.5 TFLOPs600 GB/secGA10020736 KB (192 KBx108)40960 KB400 W826 mm254 200 millonesTSMC 7 nm N7
VoltaSXM351202560N/A51201530 MHz1.75 Gbit/s HBM24096-bit900 GB/sec32 GB15.7 TFLOPs7.8 TFLOPs62 TOPsN/A15.7 TOPs31.4 TFLOPs125 TFLOPsN/AN/AN/A300 GB/secGV10010240 KB (128 KBx80)6144 KB350 W815 mm221 100 millonesTSMC 12 nm FFN
VoltaSXM251202560N/A51201530 MHz1.75 Gbit/s HBM24096-bit900 GB/sec16 GB15.7 TFLOPs7.8 TFLOPs62 TOPsN/A15.7 TOPs31.4 TFLOPs125 TFLOPsN/AN/AN/A300 GB/secGV10010240 KB (128 KBx80)6144 KB300 W815 mm221 100 millonesTSMC 12 nm FFN
PascalSXM/SXM2N/A17923584N/A1480 MHz1.4 Gbit/s HBM24096-bit720 GB/sec16 GB10.6 TFLOPs5.3 TFLOPsN/AN/AN/A21.2 TFLOPsN/AN/AN/AN/A160 GB/secGP1001344 KB (24 KBx56)4096 KB300 W610 mm215 300 millonesTSMC 16 nm FinFET+

Productos que utilizan Ampere

  • Serie GeForce MX
    • GeForce MX570 (móvil) (GA107)
  • Serie GeForce 20
    • GeForce RTX 2050 (móvil) (GA107)
  • Serie GeForce 30
    • GeForce RTX 3050 (móvil) (GA107)
    • GeForce RTX 3050 (GA106 o GA107)[26]
    • GeForce RTX 3050 Ti (móvil) (GA107)
    • GeForce RTX 3060 (móvil) (GA106)
    • GeForce RTX 3060 (GA106 o GA104)[27]
    • GeForce RTX 3060 Ti (GA104 o GA103)[28]
    • GeForce RTX 3070 (móvil) (GA104)
    • GeForce RTX 3070 (GA104)
    • GeForce RTX 3070 Ti (móvil) (GA104)
    • GeForce RTX 3070 Ti (GA104)
    • GeForce RTX 3080 (móvil) (GA104)
    • GeForce RTX 3080 (GA102)
    • GeForce RTX 3080 12GB (GA102)
    • GeForce RTX 3080 Ti (móvil) (GA103)
    • GeForce RTX 3080 Ti (GA102)
    • GeForce RTX 3090 (GA102)
    • GeForce RTX 3090 Ti (GA102)
  • GPU Nvidia Workstation (anteriormente Quadro)
    • RTX A2000 (móvil) (GA107)
    • RTX A2000 (GA106)
    • RTX A3000 (móvil) (GA104)
    • RTX A4000 (móvil) (GA104)
    • RTX A4000 (GA104)
    • RTX A4500 (GA102)
    • RTX A5000 (móvil) (GA104)
    • RTX A5000 (GA102)
    • RTX A5500 (GA102)
    • RTX A6000 (GA102)
  • GPU Nvidia Data Center (anteriormente Tesla)
    • Nvidia A2 (GA107)
    • Nvidia A10 (GA102)
    • Nvidia A16 (4 × GA107)
    • Nvidia A30 (GA100)
    • Nvidia A40 (GA102)
    • Nvidia A100 (GA100)
    • Nvidia A100 80 GB (GA100)
Productos que utilizan Ampere (por chip)
GA107GA106GA104GA103GA102GA100
Serie GeForce MXGeForce MX570 (móvil)N/AN/AN/AN/AN/A
Serie GeForce 20GeForce RTX 2050 (móvil)N/AN/AN/AN/AN/A
Serie GeForce 30GeForce RTX 3050 (móvil)
GeForce RTX 3050[26]
GeForce RTX 3050 Ti (móvil)
GeForce RTX 3050
GeForce RTX 3060 (móvil)
GeForce RTX 3060
GeForce RTX 3060[27]
GeForce RTX 3060 Ti
GeForce RTX 3070 (móvil)
GeForce RTX 3070
GeForce RTX 3070 Ti (móvil)
GeForce RTX 3070 Ti
GeForce RTX 3080 (móvil)
GeForce RTX 3060 Ti[28]
GeForce RTX 3080 Ti (móvil)
GeForce RTX 3080
GeForce RTX 3080 Ti
GeForce RTX 3090
GeForce RTX 3090 Ti
N/A
GPU Nvidia WorkstationRTX A2000 (móvil)RTX A2000RTX A3000 (móvil)
RTX A4000 (móvil)
RTX A4000
RTX A5000 (móvil)
N/ARTX A4500
RTX A5000
RTX A5500
RTX A6000
N/A
GPU Nvidia Data CenterNvidia A2
Nvidia A16
N/AN/AN/ANvidia A10
Nvidia A40
Nvidia A30
Nvidia A100

Véase también

Referencias

Enlaces externos