• Home
  • 详细介绍NVDIA H100 GPU及其架构

详细介绍NVDIA H100 GPU及其架构

2023年 8月 3日 Comments Off

NVIDIA H100是NVIDIA于2022年推出的面向AI计算的新一代GPU芯片,属于Hopper架构GPU产品系列。H100采用TSMC 4N制程工艺,整个芯片面积达到828平方毫米,集成144个流处理器(Streaming Multiprocessor)单元,总计含有1.44万个CUDA核心。

H100在算力方面相比前一代A100 GPU提升了3倍,达到60TFLOPS的FP8性能、30TFLOPS的FP16性能、10TFLOPS的FP32性能。它支持多种精度计算,包括BF16、TF32、FP64等,可以针对不同AI模型实现更高效的加速运算。

H100在内存方面使用了全新第四代HBM内存架构,带宽提升到3TB/s,共有80GB容量配置,大大提升了数据传输带宽。此外,H100还集成了一个数据压缩引擎,可以实时对数据进行无损压缩,有效减少数据量,节省内存带宽。

H100在互联网络方面,除了继续支持NVLink,还新增支持了PCIe 5.0以及CIMAX高速互联。这使得H100可以构建更强大的AI超级计算机集群,实现数百个GPU之间的高速通信。

H100在软件架构上则启用了多种新特性,包括第四代Tensor Core、增强的DPX指令、以及Hopper架构下的新工具和框架,可以为最新AI模型带来更优异的性能,尤其是在训练巨大规模的转换器(Transformer)模型方面。

此外,H100还提供了丰富的多卡联合运算能力,如MXI、GradiVeC等,可以高效执行模型并行。安全方面也得到加强,支持了硬件级的数据加密。

Nvidia GPU H100架构分析

  1. H100的Hopper架构

H100基于NVIDIA全新设计的Hopper架构,这是继Volta和Ampere之后,NVIDIA第三代面向AI计算的专用GPU架构。Hopper架构在许多方面进行了优化,包括:

(1)SM(流处理器)设计:H100的SM单元被称为GH100 SM,相比Ampere架构增加了FP32、FP16吞吐量,提升了Tensor Core性能。每个SM包含12个分区,每个分区有256个CUDA核心、8个Tensor Core和1个RT Core。

(2)数据流控制器(DFC):DFC可以合并多个小的内存访问操作到一个大块中,优化内存访问模式,减少访问延迟。

(3)L1数据缓存:GH100 SM的L1数据缓存从Ampere的128KB提升到160KB,带宽也从2TB/s提升到3TB/s。

(4)内存子系统:H100采用第四代HBM内存架构,Clock频提升到3GHz,内存带宽从1.6TB/s大幅提升到3TB/s。

  1. H100的Tensor Core计算能力

H100的Tensor Core在规模和性能上都获得大幅提升,主要包括:

(1)提升FP8、FP16吞吐量:新Tensor Core每周期可以处理2个FP8或FP16操作,相比A100的1个提升一倍。

(2)增强INT8/INT4精度:支持INT8/INT4数据类型可以加速更多INT8/INT4模型的训练和推理。

(3)提升结构化稀疏计算:支持更多稀疏模式加速大规模稀疏矩阵运算。

(4)增强DPX指令:DPX指令可以加速小批量低维向量运算,对NLP模型有提升。

  1. H100的多GPU联合计算能力

H100提供了以下多GPU联合计算功能:

(1)NVLink第四代:NVLink带宽提升到900GB/s。

(2)MXI互联网络:支持将H100组合成为密集GPU交换机,加速各GPU间通信。

(3)GradiVeC向量-矩阵引擎:可以在多个GPU间加速向量-矩阵运算。

(4)以太网和InfiniBand网络:H100继续支持高速以太网/InfiniBand网络进行多节点计算。

(5)PCIe 5.0支持:H100支持PCIe 5.0,带宽可达128GB/s。

  1. H100在训练吞吐量方面的优势

根据NVIDIA公布的数据,在训练典型大规模模型上,H100相比A100性能提升巨大:

(1) BERT模型,提升3倍;

(2) GPT模型,提升2.5倍;

(3) AlphaFold蛋白质结构预测模型,提升2.7倍。

这主要得益于H100在Tensor Core计算能力、内存带宽、网络互联等全面提升的功劳。这使得H100成为训练超大规模模型的不二之选。

  1. H100在安全性和软件生态方面的提升

相比前代产品,H100在安全性和软件生态方面也有重要进步:

(1)支持硬件级的数据加密;

(2)与NVIDIA的AI框架、应用完全兼容;

(3)可以运行NVIDIA新的Hopper架构优化的框架和工具。

综上所述,NVIDIA H100作为面向AI计算任务设计的新一代领先GPU,在算力、内存带宽、通信网络、软件生态等方面进行了全方位革新和提升,具有巨大的技术优势,将为AI模型的训练和推理带来更强大的计算能力。它是支持计算机视觉、自然语言处理等前沿AI应用的关键技术基础。

深圳市南山区科技中三路国人通信大厦B406 service@cvi-china.com +86 86662520
/*