NVIDIA Ampere GA100, el nuevo monstruo de la compañía de 7nm con hasta 8192 CUDA Cores

Roberto Solé 14 mayo, 2020

0 2.139 4 minutos de lectura

Presentadas de manera oficial las NVIDIA Ampere, las nuevas GPU de 7nm de la compañía para el segmento profesional. Esta arquitectura será la misma para el segmento gaming, con especificaciones muy diferentes. De momento, lo que nos interesa ver es que nos ofrece el silicio GA100, el más potente de la arquitectura Ampere. El primer dato relevante es que este silicio se basa en la litografía de 7nm de TSMC.

GA100 además es la GPU en 7nm más grande y potente jamás diseñada. Está completamente enfocada al segmento HDPC. Es especialmente útil para investigación científica IA, Deep Learning, Machine Learning y computación avanzada. Una arquitectura que implementa muchas novedades, cambios y ajustes que tienen mucha tela que cortar.

Gigabyte Technology GeForce RTX 2060 OC GV-N2060OC-6GD - Tarjeta grafica, Negro

Desarrollado por geforce rtx 2060
Integrado con 6gb gddr6 interfaz de memoria de 192 bits
Sistema de enfriamiento windforce 2x con ventiladores alternativos
Ventiladores de cuchilla únicos de 90 mm

Índice de contenido

NVIDIA Ampere GA100, una GPU única en 7nm

El silicio GA100 de arquitectura Ampere estará disponible en varios factores de forma, según las necesidades del cliente. Va desde tarjetas modulares Mezzanine hasta factor de forma de tarjeta gráfica de longitud completa basada en PCIe Gen4. Sobre todo destaca NVIDIA en el día de hoy la Tesla A100, que se implementará en los DGX-A100 y HGX-A100.

Respecto a las especificaciones el silicio GA100, es una GPU completa de 826mm², más grandes que la Volta GV100, que era de 815mm². Además, esta solución Ampere tiene 54.000 millones de transistores, más del doble que la solución GV100 de arquitectura Volta que contaba con 21.100 millones de transistores. Esto hace que este silicio sea el más denso para uso comercial jamás construido.

Se han integrado 128 SM que ofrecen un total de 8192 CUDA Cores, convirtiendo a esta GPU en una monstruosidad. La GPU cuenta con 8192 FP32 Cores, 4096 FP64 Cores y 512 Tensor Cores. Internamente cuenta con 8 clústeres de procesamiento gráfico con 16 SM Units y 8 TPC. El TDP de la GA100 para la variante Tesla A100 es de 400W.

nvidia ga100 de arquitectura ampere @ 7nm

Cinco innovaciones clave en la NVIDIA A100

Arquitectura NVIDIA Ampere: en el corazón de A100 se encuentra la arquitectura NVIDIA Ampere, que contiene más de 54.000 millones de transistores, lo que lo convierte en la GPU de 7nm más grande del mundo.
Tensor Cores de tercera generación con TF32: los Tensor Cores ampliamente adoptados de NVIDIA ahora son más flexibles, más rápidos y más fáciles de usar. Sus capacidades ampliadas incluyen el nuevo TF32 para AI, que permite hasta 20 veces el rendimiento de IA de la precisión FP32, sin ningún cambio de código. Además, los Tensor Sores ahora admiten FP64, entregando hasta 2.5 veces más cómputo que la generación anterior para aplicaciones HPC.
GPU de varias instancias: MIG, una nueva característica técnica, permite dividir una sola GPU A100 en hasta siete GPU separadas para que pueda ofrecer diversos grados de cómputo para trabajos de diferentes tamaños, proporcionando una utilización óptima y maximizando el retorno de la inversión.
NVIDIA NVLink de tercera generación: duplica la conectividad de alta velocidad entre las GPU para proporcionar una escala de rendimiento eficiente en un servidor.
Escasez estructural: esta nueva técnica de eficiencia aprovecha la naturaleza inherentemente escasa de las matemáticas de IA para duplicar el rendimiento.

Otras características de las Tesla A100

Adicionalmente estas soluciones implementan 48GB de memoria HBM2E en seis stack distribuidas alrededor de la matriz GPU. Estas nos ofrece un bus de datos de 6144 bits. Cada una de estas memorias nos ofrece 2GB de VRAM por capa, siendo de 4 capas cada uno de los stacks. Así el conjunto de 6 stacks por GPU suma 48Gb de capacidad. El ancho de banda total de estos sistemas es aproximadamente de 1.6Tbps.

Será así la configuración máxima de 48GB, aunque existirán otras configuraciones con más capacidad en el futuro. NVIDIA tiene previsto ofrecer memorias HBM2E de 6 capas y 8 capas en el futuro para llegar a los 72GB e incluso los 96GB en el futuro. Se podría así llegar a triplicar los 32GB HBM2 de las Tesla V100. Además, la competencia solo ofrece 16GB HBM2, por lo que estos modelos actuales de 48GB ya ofrecen el triple de memoria.

Diagrama GPU GA100

NVIDIA Tesla A100 – Especificaciones y rendimiento

Esta solución se basa en una variante de la GA100 de NVIDIA que cuenta con 108 SM, que equivale a 6912 CUDA Cores y 432 Tensor Cores. Cuenta con 40GB HBM2E que nos ofrece un bus de datos de 5120 bits. Parece que estas memorias se basarían en un stack de 5 capas.

Este sistema ofrece un TDP de 400W, que supone 100W que la Tesla V100 de diseño Mezzanine. Esta tiene una variante PCIe con un TDP de 300W, esto se debe a que las frecuencias de trabajo se han ajustado a la baja. La solución basada en Mezzanine tiene una conexión entre GPU de tipo NVLink de hasta 600Gb/s y un canal bidireccional de 4.8Tb/s. Por otro lado, la basada en PCIe tiene un sistema de conmutación Mellanox con dos conexiones NVLink de próxima generación y puertos EDR.

La GA100 de NVIDIA ofrece 1Peta-OP de rendimiento, que es 20 veces en rendimiento de la Volta VG100. Se ha mejorado el rendimiento en precisión doble en x2.5 veces con respecto a la Volta V100. Teóricamente GA100 ofrece 19.5TFLOPs FP64, mientras que la Volta GV100 solo ofrecía 8TFLOPs FP64.

Especificaciones Tesla A100

	Tesla A100 (SXM4)
GPU	GA100 (Ampere)
Litografía	7nm
Transistores	54.2 Billion
Tamaño DIE	826mm²
SMs	108
TPCs	54
FP32 CUDA Cores por SM	64
FP64 CUDA Cores / SM	32
FP32 CUDA Cores	6912
FP64 CUDA Cores	3456
Tensor Cores	432
Texture Units	432
Frecuencia base	TBD
Frecuencia Boost	1410 MHz
TOPs (DNN/AI)	1248 TOPs 2496 TOPs con Sparsity
FP16 Compute	312 TFLOPs 624 TFLOPs con Sparsity
FP32 Compute	156 TFLOPs (19.5 TFLOPs estándar)
FP64 Compute	19.5 TFLOPs (9.7 TFLOPs estándar)
Interfaz memoria	6144-bit HBM2E
Tamaño memoria	40 GB HBM2 @ 1.6 TB/s
Tamaño Caché L2	40960 KB
TDP	400W