Ir a la barra de herramientas
Hardware

NVIDIA Ampere GA100, el nuevo monstruo de la compañía de 7nm con hasta 8192 CUDA Cores

Presentadas de manera oficial las NVIDIA Ampere, las nuevas GPU de 7nm de la compañía para el segmento profesional. Esta arquitectura será la misma para el segmento gaming, con especificaciones muy diferentes. De momento, lo que nos interesa ver es que nos ofrece el silicio GA100, el más potente de la arquitectura Ampere. El primer dato relevante es que este silicio se basa en la litografía de 7nm de TSMC.

GA100 además es la GPU en 7nm más grande y potente jamás diseñada. Está completamente enfocada al segmento HDPC. Es especialmente útil para investigación científica IA, Deep Learning, Machine Learning y computación avanzada. Una arquitectura que implementa muchas novedades, cambios y ajustes que tienen mucha tela que cortar.

Gigabyte Technology GeForce RTX 2060 OC GV-N2060OC-6GD - Tarjeta grafica, Negro
  • Desarrollado por geforce rtx 2060
  • Integrado con 6gb gddr6 interfaz de memoria de 192 bits
  • Sistema de enfriamiento windforce 2x con ventiladores alternativos
  • Ventiladores de cuchilla únicos de 90 mm

NVIDIA Ampere GA100, una GPU única en 7nm

El silicio GA100 de arquitectura Ampere estará disponible en varios factores de forma, según las necesidades del cliente. Va desde tarjetas modulares Mezzanine hasta factor de forma de tarjeta gráfica de longitud completa basada en PCIe Gen4. Sobre todo destaca NVIDIA en el día de hoy la Tesla A100, que se implementará en los DGX-A100 y HGX-A100.

Respecto a las especificaciones el silicio GA100, es una GPU completa de 826mm2, más grandes que la Volta GV100, que era de 815mm2. Además, esta solución Ampere tiene 54.000 millones de transistores, más del doble que la solución GV100 de arquitectura Volta que contaba con 21.100 millones de transistores. Esto hace que este silicio sea el más denso para uso comercial jamás construido.

LEER MÁS
Review: Auriculares gaming BG Xonar-IE

Se han integrado 128 SM que ofrecen un total de 8192 CUDA Cores, convirtiendo a esta GPU en una monstruosidad. La GPU cuenta con 8192 FP32 Cores, 4096 FP64 Cores y 512 Tensor Cores. Internamente cuenta con 8 clústeres de procesamiento gráfico con 16 SM Units y 8 TPC. El TDP de la GA100 para la variante Tesla A100 es de 400W.

nvidia ga100 de arquitectura ampere @ 7nm

Cinco innovaciones clave en la NVIDIA A100

  • Arquitectura NVIDIA Ampere: en el corazón de A100 se encuentra la arquitectura NVIDIA Ampere, que contiene más de 54.000 millones de transistores, lo que lo convierte en la GPU de 7nm más grande del mundo.
  • Tensor Cores de tercera generación con TF32: los Tensor Cores ampliamente adoptados de NVIDIA ahora son más flexibles, más rápidos y más fáciles de usar. Sus capacidades ampliadas incluyen el nuevo TF32 para AI, que permite hasta 20 veces el rendimiento de IA de la precisión FP32, sin ningún cambio de código. Además, los  Tensor Sores  ahora admiten FP64, entregando hasta 2.5 veces más cómputo que la generación anterior para aplicaciones HPC.
  • GPU de varias instancias: MIG, una nueva característica técnica, permite dividir una sola GPU A100 en hasta siete GPU separadas para que pueda ofrecer diversos grados de cómputo para trabajos de diferentes tamaños, proporcionando una utilización óptima y maximizando el retorno de la inversión.
  • NVIDIA NVLink de tercera generación: duplica  la conectividad de alta velocidad entre las GPU para proporcionar una escala de rendimiento eficiente en un servidor.
  • Escasez estructural: esta nueva técnica de eficiencia aprovecha la naturaleza inherentemente escasa de las matemáticas de IA para duplicar el rendimiento.
nvidia ga100 de arquitectura ampere @ 7nm

Otras características de las Tesla A100

Adicionalmente estas soluciones implementan 48GB de memoria HBM2E en seis stack distribuidas alrededor de la matriz GPU. Estas nos ofrece un bus de datos de 6144 bits. Cada una de estas memorias nos ofrece 2GB de VRAM por capa, siendo de 4 capas cada uno de los stacks. Así el conjunto de 6 stacks por GPU suma 48Gb de capacidad. El ancho de banda total de estos sistemas es aproximadamente de 1.6Tbps.

LEER MÁS
MSI B350I Pro AC, para los AMD Ryzen y para las APU Raven Ridge

Será así la configuración máxima de 48GB, aunque existirán otras configuraciones con más capacidad en el futuro. NVIDIA tiene previsto ofrecer memorias HBM2E de 6 capas y 8 capas en el futuro para llegar a los 72GB e incluso los 96GB en el futuro. Se podría así llegar a triplicar los 32GB HBM2 de las Tesla V100. Además, la competencia solo ofrece 16GB HBM2, por lo que estos modelos actuales de 48GB ya ofrecen el triple de memoria.

Diagrama GPU GA100

NVIDIA Tesla A100 – Especificaciones y rendimiento

Esta solución se basa en una variante de la GA100 de NVIDIA que cuenta con 108 SM, que equivale a 6912 CUDA Cores y 432 Tensor Cores. Cuenta con 40GB HBM2E que nos ofrece un bus de datos de 5120 bits. Parece que estas memorias se basarían en un stack de 5 capas.

Este sistema ofrece un TDP de 400W, que supone 100W que la Tesla V100 de diseño Mezzanine. Esta tiene una variante PCIe con un TDP de 300W, esto se debe a que las frecuencias de trabajo se han ajustado a la baja. La solución basada en Mezzanine tiene una conexión entre GPU de tipo NVLink de hasta 600Gb/s y un canal bidireccional de 4.8Tb/s. Por otro lado, la basada en PCIe tiene un sistema de conmutación Mellanox con dos conexiones NVLink de próxima generación y puertos EDR.

La GA100 de NVIDIA ofrece 1Peta-OP de rendimiento, que es 20 veces en rendimiento de la Volta VG100. Se ha mejorado el rendimiento en precisión doble en x2.5 veces con respecto a la Volta V100. Teóricamente GA100 ofrece 19.5TFLOPs FP64, mientras que la Volta GV100 solo ofrecía 8TFLOPs FP64. 

Especificaciones Tesla A100

Tesla A100 (SXM4)
GPUGA100 (Ampere)
Litografía7nm
Transistores54.2 Billion
Tamaño DIE826mm2
SMs108
TPCs54
FP32 CUDA Cores por SM64
FP64 CUDA Cores / SM32
FP32 CUDA Cores6912
FP64 CUDA Cores3456
Tensor Cores432
Texture Units432
Frecuencia baseTBD
Frecuencia Boost1410 MHz
TOPs (DNN/AI)1248 TOPs
2496 TOPs con Sparsity
FP16 Compute312 TFLOPs
624 TFLOPs con Sparsity
FP32 Compute156 TFLOPs
(19.5 TFLOPs estándar)
FP64 Compute19.5 TFLOPs
(9.7 TFLOPs estándar)
Interfaz memoria6144-bit HBM2E
Tamaño memoria40 GB HBM2 @ 1.6 TB/s
Tamaño Caché L240960 KB
TDP400W

Fuente: wccftech

Roberto Solé

Técnico en sistemas de generación de energía sustentables e instalador de sistema de distribución de energía en vivienda. Trabajo delante de un PC, en mi tiempo libre estoy delante de un PC y cuando salgo de casa estoy pegado a la pantalla de mí smartphone. Cada mañana cuando me levanto cruzo el Stargate para hacerme un café y empezar a ver vídeos de YouTube mientras hago ver que escribo aquí. Una vez vi un dragón... ¿o era un Dragonite?

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Botón volver arriba