如何评价英伟达 3 月 22 日发布的全新 GPU H100 ？_ZNDS问答

朋友ixaoi

英伟达宣布推出新款面向数据中心的人工智能（AI）图形处理器芯片（GPU），名为 H100。
这款基于「Hopper」而设计的图形芯片将于 2022 年稍晚首发上市，新款 Hopper 架构具备 800 亿晶体管。

错峰回答一波，白皮书里的各方面性能数据大家吹得很多了。先贴一个两年前A100发布时候写的一个回答和NV未来发展趋势的预测，基本还是符合预期的。
如何看待Nvidia于2020年5月4日发布的全新Ampere GPU A100 (GA100核心)？NV的GPU在DSA的道路上下注得越来越坚定。大家如果看这几年NV的发布会，一般性能要吊打上一代5～10倍这个量级。但如果大家列出这几代芯片的cuda core的数量变化，其实SIMT这条路带来的提升只有2倍左右，性能提升其实越来越倚重DSA。volta架构之前基本沿着SIMT道路扩展。
从volta开始加入tensorcore，属于吃了一口DSA的毒药了，ampere扩展一系列低精度数据格式，搞sparse计算，到hopper搞fp8增强transformer搞dpx，已经到了药不能停的地步。之所以说DSA是毒药，是因为副作用真的很大，我相信每个搞AI芯片的公司都吃过这其中的苦头，那就是软件生态非常难建立。即使NV坐拥cuda生态和巨大的行业号召力，这种毒性也会慢慢发挥作用。我相信很多做NV平台算子开发的朋友都有这样的感觉，v100的tensor core才慢慢开始用起来，a100才刚到货没多久，sparsity之类的特性软件整体也还没来得及去适配，现在h100又整出来一堆新东西，外部软件团队其实是很难跟上这个节奏的。这会慢慢导致NV的生态变得和各个AI公司一样，靠NV内部力量去搞，但自己玩那还叫“生态”吗？一方面外部团队很难跟上NV的变化去建设生态，另一方面外部团队也会充满强烈的不安全感，今天老黄把transformer搞了，明天会不会把我的一亩三分地也给收割了？
这种毒性会慢慢损伤NV自己的生态，除非NV在构建一套新的生态来革了cuda生态的命。虽然我是个十足的N吹，但在这一块，我确实还没看到NV有所布局，而且NV在DSA的吃法属实有点过于变态。我之前写过一系列文章试图为大家构建一个DSA构建稳定生态和演进空间的可能性，实现DSA的无毒化烹饪，以此来对抗NV强大的SIMT生态。
专用架构与AI软件栈（1）但NV目前在DSA上的吃法都是属于完全无法做到软件透明的，尤其是ampere和hopper引入的这些DSA特性，无论用什么样的系统和软件栈设计也兜不住的。这在我上面这个系列的文章里抛出的方案也兜不住的DSA，实在是过于变态。最终的算法用户必须根据NV的特性特点去改造算法才能用上这些特性。作为一个N吹，虽然我也想辩解说NV敢这么做一定说明这种改动大概率在算法层面是可行的，但站在一个搞系统和架构的人角度，我还是觉得这种做法毒性属实过大。当然了，以NV当前的号召力，也没准能把这些新特性中的一部分变成事实的算法标准。
很多朋友喜欢摸着NV过河，觉得NV几乎把各种路都走了一遍，让大家无路可走，有点绝望。实际上我倒是反而觉得老黄这一口毒药吃得倒是暴露出了一定弱点，是广大AI厂商的机会，DSA的核心竞争力一定是软件生态的建设，不搞好就是毒药，显然现在NV也没有办法。
这里我再多说两句，很多朋友对生态的理解还是把硬件包得足够好用，把更多已有的软件对接过来。这样做当然也没错，但背后都是面向客户的生态建设，而不是面向开发者的生态建设。大家可以想一个简单的问题，如果各家AI芯片厂商可以穿越到2012年，AI的软件和生态还是一片蛮荒的时代，你们会怎么建设软件生态？NV没有选择做一个大而全的框架，NV只是在到处送卡和推广cuda。上面的深度学习框架一轮又一轮，你方唱罢我登场，cuda在下面稳如泰山。以NV的实力，做一个深度学习框架根本不是什么难事，想通过造一个大而全的软件框架保姆式地伺候最终的算法客户其实很难拿到软件生态，生态建设是需要遵循着面向开发者的原则展开。当然，在cuda已经成为事实上标准的情况下，NV才开始了如今的收割模式，以cuda为大本营大规模建设软件解决方案，面向客户开始收割各种垂直场景。
虽然2012年已经过去十年，SIMT的机会完全被cuda占据了，但DSA目前其实还是一片蛮荒，即使NV如此下注DSA，其实也还没拿出一套生态建设思路。我们其实完全可以好好学习一下cuda是如何在多核cpu几十年成熟的软件生态下大开局面的，希望大家好好把握机会（逃
当然，除了这些非常变态的DSA变化外。NV也一直在致力于将通用的cuda编程变得异步化，比如之前增加独立pc，比如这次TMA的引入，以及编程模型中block cluster的引入。这部分仍然是强大的SIMT生态的范畴，逐渐微调cuda的编程模型，逐渐暴露更多硬件细节出来，同时做一定的抽象，这些方面其实能感受到NV在这方面做得相当克制。当然了，这些微调一方面可以说增加了写cuda算子的难度，另一方面也可以说增加了更多卷的机会。有人喜欢有人喷，仁者见仁，智者见智。
我个人还是比较喜欢这一类调整的，相比很多AI芯片非常粗放地把硬件约束暴露上来，NV在cuda上的打磨我觉得还是相当精细的，编程模型一方面没有做得太复杂，但又足够把硬件用好的机会呈现出来，并且给未来很多代芯片进一步演进保留一定空间。这种软硬件分赃的刀工还是非常了得的。
这里我也不妨多说几句，我之前跟很多写cuda算子的朋友一起吹NV，我发现大家受cuda编程模型的影响，常常会一定程度上“忘记”硬件memory wall的各种问题。很多在别的架构上看起来非常蛋疼的问题似乎挪到cuda下面就不那么严重了，实际上NV GPU在整个memory通路上用了很多代价给cuda营造出来的这种假象，比如memory coalescing、大量sm访存的分发、冲突等问题。但这些问题确实硬件处理会更好，软件处理很容易出现舍近求远的各种奇葩情形。这些隐藏在cuda后面处理memory wall的各种机制也是NV在GPU硬件设计上非常核心的竞争力。在软硬件架构设计上的把控能力其实就是体现在这里，到底什么暴露给软件什么由硬件抗，cuda的竞争力其实就在这里。
MIG这一块这次的h100也得到了增强，之前写的a100的回答里也提到了，个人觉得这一块老黄是在dsa形态的gpu铺路，通过虚拟化让云上不同的workload能够把同一个gpu的不同dsa模块都充分利用起来，同时又保持一个干净的软件界面，可以继承现有针对单GPU的软件生态。当然现阶段还是硬分配，未来我相信一定会有类似超线程的超卖机制，一个GPU虚拟成若干个GPU实例，给云上不同类型的workload跑，每个实例虽然名义上只分到1/n之一的资源，但实际上可以把其他实例不用的资源（tensorcore、rtcore这个粒度）调度过来。这样真个云的利用率也能提高，应用的性能也可以提高。同时还能给云厂商自己去搞QoS卷竞争力，当然怎么切软硬件的分层确实是个很有意思的问题，我还是比较相信NV的刀法的。硬件层面的schedule确实也有一定的挑战性，不过以NV在warp schedule上的成熟经验，我觉得也是完全现实的。
总得来讲，NV的整体步伐还是稳重带着激进。虽然我对于NV下注DSA这一块的打法不是太乐观，但作为坐拥强大cuda生态的公司，直接把自己的主航道产品切换到其最大挑战者DSA的路径上，把一众竞争者从差异化竞争打压成同质化竞争，这还是相当有魄力的。

从量变到质变——H100为NV的后续野心提供了最核心的硬件基础

Hopper[1][2]

从GPU来说，H100的架构Hopper提升算是中规中矩——就是堆核。
整体架构规格变化不大
采用了台积电N4工艺的Hopper，800亿晶体管规模的Hopper，完整的规格包括：

8个GPC（GPU Processing Cluster，GPU处理集群）；
72个TPC（Texture Processing Cluster，纹理处理集群），每个GPC含9个TPC；
144个SM（Streaming Multiprocessor，流式多处理器），每个TPC两个SM；

144个SM的H100

128个SM的A100

SM规模几乎翻倍
和上代的A100的8×8×2=128相比，SM数量增加了12.5%，并不算多。但是每个SM内部的规模则是几乎翻了一倍。H100的SM和A100一样包含4个模块，每个模块的提升包括：

16个INT32执行单元，和A100一致；
32个FP32，比A100的16个翻倍；
16个FP64，比A100的8个翻倍；
Tensor Core（张量计算核心）性能更强，吞吐为A100的2倍。

H100 SM

A100 SM

H100和A100的Tensor Core

3倍性能
所以，H100的每个SM的同频率理论性能，FP32、FP64和张量计算性能都比A100翻倍；按照NV白皮书的说法，加上SM数量增加和频率提高，整体上H100的性能是A100的3倍。

频率提高
H100分SXM5和PCIe 5两种产品，这个3倍应该是指H100 SXM5的性能，白皮书给出的FP32性能是H100 SXM5为60 TFLOPS，A100为19.5 TFLOPS，H100 SXM5规格为66个TPC（比完整的72个TPC少6个），132 SM，计算下来H100 SXM5的频率应该在1775 MHz左右，比A100提高了25%左右。
H100 PCIe 5是57个TPC，114 SM，理论FP32性能48 TFLOPS，频率大概在1645 MHz左右，比A100提高了17%。

功耗
不过功耗方面，SM规模翻倍、SM数量增加以及频率提高，即便制程从7nm升级到4nm，H100 SXM5的功耗还是从A100的400W提高到了700W；不过PCIe5的产品则是降低到了350W，比250W的PCIe A100只高100W，只有H100 SXM5一半。除了规模小一点，频率稍低以外，我猜测主要是SXM5集成的NVLink控制器、HBM3显存控制器的功耗比PCIe高得多。

其他改进
H100还有其它性能方面的提升，白皮书提到的几点包括：

支持FP8。可以大致理解为FP8性能为2X FP16；所以和只支持FP16的A100相比，使用FP8的AI应用性能是A100的2×3=6倍；
新的Transformer引擎，部分AI训练速度提高9倍，AI推理速度提高30倍；
异步执行，内存访问更有效率；
DPX指令，动态编程算法性能提升7倍以上；
L1缓存从192KB增加到256KB；
新的TBC（Thread Block Cluster，线程块集群），可以跨SM对局部进行控制；
分布式共享内存，允许不同SM之间直接通讯，共享内存数据。
显存位宽和A100相同，都是5120bit HBM。H100 PCIe产品是HBM2E，频率未定，预计带宽为2 TB/s，略高于A100的1.55 TB/s；H100 SXM5是HBM3，频率未定，预计带宽为3 TB/s，比A100高将近1倍。

总结一下，就是H100在A100发布两年后的今天还没有一个真正意义上具有威胁性的对手时，直接把性能推高3倍，AI方面甚至最高可以提高30倍。当然，实际性能还是要等产品上市之后再看，但即便到不了3倍，2倍应该问题不大。
<hr/>NV的野望

NV在这次的GTC上，对于未来引领业界发展的野心暴露无遗。GPU性能多年来的大幅提升，使得NV对Intel主导的PC架构相当不满。这次GTC，NV公开了一系列产品：
CPU：Grace
两块芯片组成的Super Chip，一共有144个核心，SPECint 2017性能达到740分，高于Intel当前双路40核的8380；但低于AMD双路64核EPYC 7763。

两块Grace组成的Super Chip

不过Grace最大的优势在于高带宽：内存采用LPDDR5，带宽1 TB/s；和GPU之间采用NVLink，带宽900 GB/s。

Grace + H100的Super Chip

作为对比，Intel的8380和AMD的EPYC 7763都是单CPU支持8通道DDR4，按照3200计算的话单CPU内存带宽205 GB/s，双路410 GB/s；即便下一代采用DDR5内存，初代DDR5 4800带宽也不过比DDR 3200高50%，615 GB/s。

IO带宽就更低了。即便是16x 的PCIe 5.0，也不过是63 GB/s，和NVLink的900 GB/s相比，仅有7%。所以，H100甚至推出了集成网络模块的PCIe型号H100 CNX，H100之间直接通过400Gbps的高速网络互联，完全绕开传统的CPU、内存、PCIe路径的限制。

H100配合Grace CPU以及CX7 DPU（Data Processing Unit，数据处理器，或者另一个称呼是智能网卡），可以有多种组合，满足不同的应用需求，从最低的2x Grace + CX7、Grace + H100 + CX7，到最高2x Grace + 8x H100 + 8x CX7——这些组合，不同芯片之间都是通过NVLink来连接：

网络：NVLink交换机、ConnectX-7 DPU、Quantum-2 InfiniteBand交换机
NVLink除了用于连接单个节点内部的不同芯片之间外，还可以通过NVLink交换机，用于不同节点之间互联，从而组成一台32节点，共计256 H100的DGX SuperPod。

多个DGX SuperPod之间再通过InfiniteBand连接，组成一台数千个GPU的超算。NV自己目前在建的EOS，将会有18 SuperPod，576 DGX，4608 H100，传统的通用计算性能比美国最快的超算Summit快1.4倍，AI性能比全球最快的超算，日本富岳快4倍。

<hr/>模拟真实世界：OmniVerse Digital Twin

基于如此强大的性能，NV推出了一系列的AI开发平台，其中我认为最重要的是OmniVerse Digital Twin，数字孪生技术。我相信NV也是这么认为的，毕竟GTC 2022一共101分钟的Keynote视频中，从50:59~1:31:20，共计40分钟都是在介绍OmniVerse Digital Twin的应用前景。

数字孪生简单来说，就是把现实世界虚拟化——不同于目前大火但也很多人觉得是骗局的元宇宙，NV的数字孪生是把现实世界数字化，然后利用这个数字化的世界复制品去进行很多现实世界中难以进行或者成本高昂的试验，包括天气预报，AI模型的训练，药物研发，仓库及物流系统的升级优化等等，而在数字世界中的这些试验结果，则又可以反过来影响我们的现实世界。

更具体的数字孪生世界的应用，感兴趣的朋友可以去NV官网看[3]。
<hr/>模拟世界，然后改变世界，这可以说是目前IT技术发展的终极目标。很显然，NV的野心则是，成为这个过程中的领导者，H100，就是NV实现这个野心的硬件基础。

首先附上H100白皮书的链接：H100 Whitepaper
架构上的演进

TensorCore吞吐量翻倍（同SM同频）

根据黄金主义回归律法的揭示：AI就是矩阵乘+非线性！
而看看那非线性那可怜的O(N)的计算量，矩阵乘的O(N^3)的计算量才是AI中的绝对计算瓶颈。因此，对于矩阵乘专用单元的TensorCore，其同频吞吐稳步翻倍提升是自然符合产品的应用面的。从Volta到Turing到Ampere再到Hopper，基本上每一代都做到了翻倍的吞吐提升。下方H100白皮书的图也给出了H100TensorCore的执行示意图。看起来是从A100的16-8-16直接提升到了16-16-16，具体的还是得等CUDA12出来后测试下才能确定。

FP32性能暴力翻倍（同SM同频）

在RTX的Ampere架构下，老黄非常鸡贼地复用了INT32的电路，扩展成为了可执行的FP32运算的电路，使其FP32 ALU看起来翻倍了。但是实际性能下，由于逃不开逻辑运算和地址运算等等整数运算，所以整体的FP32实际峰值性能在70%左右（cuBlas测试4K矩阵乘）。
而这次的H100则是正二八经地把一个SM内FP32 ALU数目给翻了倍，没有利用INT32电路复用！不信看下图！

这意味着，H100(SXM5)声称的60T算力是确确实实可以达到的，当然，前提是你的计算访存比跟得上。
专用硬件(TMA)加速的Tensor化访存

在鄙人浅薄的见识中，华为的昇腾架构(Asecnd 910/310)老早就使用了这样的设计逻辑：对于矩阵乘加运算的规律化访存，将其交给专用的硬件(Memory Transfer Element, MTE)来完成即可，无须让通用计算单元去完成繁琐的地址计算和边界检查，因为那些都是非常固定化的行为！
NV在Hopper架构中终于姗姗来迟地加入了这一硬件，让专用的硬件代替完成这些地址计算、边界检查、数据移动指令的提交等行为。其实NV姗姗来迟采用这种设计逻辑的原因也可以猜到：原先的TensorCore性能没这么夸张，可能TensorCore那边利用率打满了，SIMT Pipe都还有很大的空闲使用余量，因此让他们算算地址、提交提交数据移动指令正好，省得引入额外的硬件消耗；而Hopper下的TensorCore可是相较于Volta老前辈翻倍了不知道几次的性能，可能TensorCore那边算完一轮迭代了，这边SIMT Pipe还没算好下一轮的地址（计算本身是相当固定的模式并且不复杂，但是需要的指令数量较多，限制于SIMT的指令吞吐了），因此采用ASIC专用电路来固化这样的计算过程。

SM内统一缓存的容量提升以及L2容量提升

从Volta到Ampere再到Hopper，缓存提升都是稳步推进的。凭良心讲，A100的192KB+40MB缓存容量在我看来已经是非常大的了，暂时还没有办法给出非常理性的数据分析表明H100的256KB+50MB缓存容量带来的性能提升影响，唯一可以联想到的就是，H100最多可以支持4个48KB SharedMem占用的CTA调度至同一SM上，而A100最多只能支持到3个...
或者超大容量的SM内缓存是给新提出的Block Cluster以及DSMEM提供更高效的服务的？
软件上的演进

SIMT？Cooperative Group！

从前，学CUDA只需要学习GPU架构和理解SIMT Program Model即可写出相当不错性能的程序了。
而自从V100+CUDA9.0横空出世后，一个新的名词悄无声息地出现：&#34;Cooperative Group&#34;。它是CUDA新引入的一种编程概念，旨在以几乎任意粒度去控制GPU的各种资源，例如你可以把block内的线程以8个为单位进行组织来完成你所期望的事情，也可以把多个block绑定在一块完成你所期望的事情（认真看了CUDA11.6的文档后订正，不存在对不同block绑定的功能）。利用这个特性，以K-Split完成的矩阵乘可以以1个Kernel完成，而不用调用两个Kernel，省去了不少的开销（Kernel Launch以及两个Kernel之间的隐式同步（订正：reduce前对整个grid显示地同步））
而到了最新的H100，CUDA正式地提出了Block Cluster这一概念，让多个Block可以互相协同完成计算、互相访问各自的共享内存，并且最重要的是，这多个Block可以分布在同一个GPC的不同的SM上！而完成Block Cluster的逻辑载体正是Cooperative Group。
可以想象的是，在编写矩阵乘法时需要考虑的数据复用层面，又多了一层，如何组织多个Block构成一个Block Cluster，互相利用各自的共享内存，进行数据在Block之间复用，成为了CUDA HPC程序员的新难题（可能也是新的面试题）。

令人震惊的FP8

内容很简单，H100的TensorCore现在支持FP8作左右矩阵、FP16\32作累加矩阵，且吞吐相较于FP16翻倍。

为什么要将FP8归纳到软件上的演进呢？因为我个人觉得利用FP8加速网络的训练本身是一个软件上的（更准确的说，是算法上的）问题。因此，我特意把这个新Feature放在软件演进上。
根据我个人为数不多的痛苦的训练某些个网络的经验来看（点名EfficientDet系列），就算是利用FP16-FP32混合精度训练也存在着不小的训练不收敛的风险问题。因此，NV能如此激进地推出FP8的TensorCore来训练网络一定是因为他们有已经实现了的FP8训练算法，成功训练了某些结构的网络后，才敢推出这个新特性。而白皮书上也点明是在Transfomer结构网络下才能够利用到这一特性。
因此，对于这个新特性而言，我更好奇背后的训练算法是怎样的。所以，它是一个软件的演进。

此外，关于FP8这一特性，我还想强调的是：这个功能的支持可能非常受限，你可能不得不使用NV提供的工具库才能获得这一特性的支持，并且它只能支持于Transformer结构。这一特性非常像A100时推出的结构化稀疏矩阵乘支持的TensorCore，一般情况下，你必须使用NV的工具库才能享用结构化稀疏这一特性带来的加速。
解决DP问题的新指令DPX

其实在白皮书的Appendix C上有稍微讲DPX指令干的事情大概是怎样的，见下图。

DP问题中经常出现的就是对上下左右以及对角线元素的访存和计算操作，看起来，似乎DPX指令是对类似于这样行为的支持。不负责任的推测，DPX指令利用了新介入的TMA进行访存。

一点个人感想

NV这次搞出来的H100作为单卡单芯，其算力超乎任何人的想象。而要想发挥出这个芯片的能力，底层库的开发人员面临的压力无疑是巨大的。对于这一次的TensorCore和FP32，它们都是吞吐翻倍，那么对于计算访存强度的要求也会翻倍。而这次的GM访存带宽并没有相较于A100翻倍，而是通过了多个取巧的方式缓解了带宽问题：

首先是Block Cluster的引入，它允许物理上同在一个GPC的最多16个Block相互访问SMEM，这无疑可以在矩阵分块上新增添一个层级，极大地缓解GLOBAL带宽压力；
其次对于SM（以及Cluster的SM间）内访存，终于引入了专用的Tensor化访存单元，缓解SIMT管线的地址计算压力，进一步释放了SM内的SIMT指令吞吐。

但是这样一来，GPU+AI库开发可能会彻底和NV外部的开发者告别，因为要想写出峰值性能的程序，就必须得使用这些新推出的特性，但是对于这些新推出的特性，NV并没有详细地指导教程，不信你可以看看CUDA Programing Guide对于现如今非常重要的Cooperative Group的教程，可以说是写得非常不想让你明白它到底是为了解决什么问题的。对了，甚至对于现在TensorCore的使用，普通开发者根本没法使用到TensorCore的峰值性能，因为NV根本没有告诉你，16*16分块在SMEM中需要特殊的排布才能在读入Reg时不产生Conflict，而你不做MicroBenchmark根本无法发现这一现象！
所以，可以预见的是，对于这次新引入的软件特性，NV多半也是对外部开发者敷衍了事，外部开发者只能抱着NV技术垄断的各种软件库进行调用。
另外，我也非常期待国内的AI芯片厂商，尤其是华为昇腾系列的新架构。昇腾是我接触过的第一个AI芯片，它所推行的一些设计逻辑其实是非常先进的，例如：

尽可能地在获取当前Kernel的所有已知信息后再为其生成二进制代码：
- 华为的ATC模型转换工具要求尽可能地指定静态输入shape，就是为了推导出每一层的输入输出Tensor的Shape，从而把很多计算和抉择在编译期完成，最优化和最小化地生成执行代码。
- 而NV后面也推出了相似的NVRTC动态编译库来完成类似的工作。
对于编程模型的设计尽可能贴合硬件本身，从而让程序员能更轻松地发挥硬件性能：
- 昇腾系列的编程模型非常结合硬件，其不同计算管线的几乎每个指令，都有一个暴露给上层程序员的API，程序员直接调用这些API，直接地控制硬件完成任务。它的缺点是入门困难，但是在攀登峰值性能时相对更容易。
- 而NV在引入TensorCore之后，其引以为豪的SIMT编程模型，似乎开始逐渐成为阻碍。而为了更好地利用硬件资源，NV现如今更是强推Cooperative Group。倒不是说这些不好，我只是觉得，NV非常喜欢用软件去辅助解决很多问题，同时还不真心教给你使用教程，从而使得CUDA程序员（尤其是外部人员）越来越难以理解和揣摩自己手上这个芯片，到底怎样才能发挥峰值性能。

相比于「只有」540亿个晶体管的前辈A100，英伟达在H100中装入了800亿个晶体管，并采用了定制的台积电4纳米工艺。

也就是说，H100将具有更好的功率/性能特性，并在密度方面有一定程度上的改进。

在算力上，H100的FP16、TF32以及FP64性能都是A100的3倍，分别为2000 TFLOPS、1000 TFLOPS和60 TFLOPS。

此外，H100还增加了对FP8支持，算力高达4000 TFLOPS，比A100快6倍。毕竟在这方面，后者由于缺乏原生FP8支持而不得不依赖FP16。

内存方面，H100也将默认支持带宽为3TB/s的HBM3，比A100的HBM2E提升1.5倍。

H100支持的第四代NVLink接口可以提供高达128GB/s的带宽，是A100的1.5倍；而在PCIe 5.0下也可以达到128GB/s的速度，是PCIe 4.0的2倍。

同时，H100的SXM版本将TDP增加到了700W，而A100为400W。而75%的功率提升，通常来说可以预计获得2到3倍的性能。

为了优化性能，Nvidia还推出了一个新的Transformer Engine，将根据工作负载在FP8和FP16格式之间自动切换。

Hopper架构全新的DPX指令，将为动态规划的计算速度带来高达40倍的提升。

在AI训练中，H100可以提供高达9倍的吞吐量。以Megatron 530B为基准，则可以提供16倍至30倍的推理性能。在3D FFT（快速傅里叶变换）和基因组测序等HPC应用中，则可提升6-7倍。

DGX服务器系统

第四代英伟达DGX服务器系统，将世界上第一个采用H100显卡构建的AI服务器平台。

DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。

其中，每个服务器系统包含8个H100显卡，通过NVLink链接为单个整体，晶体管总计6400亿个。

在FP8精度下，DGX H100可以提供32 PFLOPS的性能，比上一代高6倍。

此外，每个DGX H100系统还包括两个NVIDIA BlueField-3 DPU，用于卸载、加速和隔离网络、存储和安全服务。

8个NVIDIA ConnectX-7 Quantum-2 InfiniBand网络适配器提供每秒400 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。

第四代NVLink与NVSwitch相结合，可在每个DGX H100系统中的每个GPU之间提供每秒900 GB的连接，是上一代的1.5倍。

而最新的DGX SuperPOD架构则可连接多达32个节点、总共256个H100显卡。

DGX SuperPOD可提供1 EFLOPS的FP8性能，同样也是前代的6倍。

世界上最快的AI超算

由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能，比目前世界上最快的超算——日本的「富岳」快4倍。

对于传统的科学计算，Eos有望提供275 PFLOPS的性能。

Transformer Engine

作为新Hopper架构的一部分，将显著提高AI的性能，大型模型的训练可以在数天甚至数小时内完成。

传统的神经网络模型在训练过程中采用的精度是固定的，因此也难以将FP8应用在整个模型之中。

而Transformer Engine则可以在FP16和FP8之间逐层训练，并利用英伟达提供的启发式方法来选择所需的最低精度。

此外，Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据，于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。

欢迎关注新智元了解人工智能新动态( ^_^)／

更新中（先主要聊聊通用性能，指令集或者特别更新，比如Transformer的专项加强，随后再聊~）
核弹性能和核弹功耗

老黄不愧是核弹厂，这回的H100采用Hopper架构，800亿晶体管，812的面积，台积电N4工艺（自己定制的4N名字），纸面性能差不都翻了三倍（别被这个唬住），功耗也从400W提升到了700W，可以说核弹级别的性能和核弹级别的功耗了~

AI性能篇：3倍有点浮夸，实际2倍可期

单纯说纸面性能的话，不可为不暴力，浮点部分基本都翻了三倍了，而且还加强了对于FP8的支持（之前Ampere无法实现对FP16的翻倍），所以额外提升到了6倍的性能。

但是实际上，大家也不要太天真的认为这个就真的增加了3倍的性能。Hopper其实相对于上一代服务器级别的Ampere来说，每个SM的浮点ALU数目翻倍了，也就是Ampere消费级的特性。所以实现了在SM只增加30%左右的前提下，CUDA核心翻倍了很多。
但是大家也可以从Ampere消费级看到，通过这种方式暴增的CUDA核心，并不能1：1的提升性能，也就是虽然理论性能翻了3倍，但是实际上和以往直接堆3倍规模（含频率）是有差异的~

关于这点，我大致上测算过，也有外媒测试过。比如2080 Ti的FP32性能大概是13T FP32，而3090的是36T FP32，理论上提升了2.76X，但是实际任务跑下来只提升了1.5倍附近，也就是翻倍后的浮点，效率其实只有0.55-0.6X之间。

我这个0.55-0.6X的数据可能会有点低，毕竟这个是Hopper架构，不是第一代Ampere了，但是整体来看真不会太高。如果按照0.7X的效率来看， H100提升3倍的浮点性能，最后实际应用任务上应该是提升2倍附近（单纯的浮点测试应该可以跑出3倍）。

而且还要注意到Hopper的内存带宽实际只提升了 50%，实际应用中要跑出理论3X的性能可以说是难上加难。
总结一下，就是不要被Hopper的3倍数字给唬住，从Hopper的内存带宽、SMs数量来看，这代H100的理论值提升是要远大于实际提升的。可能有一些高度优化的程序是可以用到的，但是对于更为“日常”和“通用”的任务来看，3倍不可期待~。
次世代计算卡对比：Nvidia vs AMD vs Intel

H100在深度学习性能上，可以说是暴打AMD了，AMD这边FP32 Matrix也才90.5T，Nvidia略微降低一点精度就500T了，整整差了5倍，FP16 和TF16 也是1000-2000T vs 400T不到的水平，再加上生态优势，差距还是不小。

但是正如之前说的，AMD和Nvidia在旗舰卡上的定位不一样，Nvidia深耕AI而放弃了HPC性能，也就是传统的FP32和FP64向量性能。AMD最新的Instinct MI250X的FP64和32向量性能分别是48T和48T，而H100最高只是30T和60T，AMD的FP32足足领先了50%~要知道这还是AMD用着更落后6nm达到的，而且AMD也还没有双倍ALU的刷分举动。 Nvidia要借助Tensor才能超过AMD的48T，但是那时候AMD也有Matrix，也正好96T。

所以说，就AMD和Nvidia的旗舰计算卡对比来看，AMD深耕传统高精度FP64向量HPC，Nvidia深耕AI低精度矩阵AI市场，目前来看不存在谁吊打谁的说法，二者硬件上真的各有所长。

Intel的话，现在PVC还没有成品，就现在的A0测试版性能来说是FP32是45T，大概率也就是FP64 22.5T的样子，纸面上是Hopper的7成多一点的水平，也不如AMD。根据Intel的宽度信息来折算的话，大概是320T，也是不如Hopper的500T（我不计算稀疏的)，大约7成不到一点。

不过乐观一点看，Intel这个还不是最终版本，并且Nvidia的Hopper是有刷浮点的行为的，转化效率很可能是在NAI三家中垫底的。
所以说，这一代我觉得非常有意思，AMD的HPC比较稳，Nvidia的AI很稳，Intel这边更像是六边形战士，但是因为因为缺乏验证，实际效果不好说。

小结

另外，H100的面积大概800多，散热拉到700W已经比较接近CPU的热密度了，接近100W/100mm2了。参考一下，Intel的12900K 200多的面积 200多W。当然这不是极限，我在好奇Nvidia下一代会不会推到AMD那种，80mm2的面积140W不到的水平。
先写这么多，太晚了，头脑混乱，错误多多，感谢包容
<a data-draft-node="block" data-draft-type="mcn-link-card" data-mcn-id="1489776914407153664">

		自动登录	找回密码
密码			立即注册

如何评价英伟达 3 月 22 日发布的全新 GPU H100 ？

相关问题更多>

最新回答