开启辅助访问
 找回密码
 立即注册

英伟达发布集成 256 个 GH200 芯片的 DGX GH200 超级计算机,有哪些技术亮点?

6675499 回答数5 浏览数330
5 月 29 日消息,英伟达今日在 2023 台北电脑展大会上发布了多项重磅消息,其中最引人注目的是其 Grace Hopper 超级芯片已经全面投产。这些芯片是英伟达新推出的 DGX GH200 人工智能超级计算平台和 MGX 系统的核心组件,它们专为处理海量的生成型人工智能任务而设计。英伟达还宣布了其新的 Spectrum-X 以太网网络平台,专为人工智能服务器和超级计算集群而优化。

Grace Hopper 超级芯片是英伟达开发的基于 Arm 架构的 CPU+GPU 集成方案,它将 72 核的 Grace CPU、Hopper GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一台封装中,共有 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间惊人的数据带宽,高达 1 TB / s,为某些内存受限的工作负载提供了巨大的优势。

DGX GH200 人工智能超级计算平台是英伟达针对最高端的人工智能和高性能计算工作负载而设计的系统和参考架构,目前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一台单元,考虑到生成型人工智能的爆炸式增长,英伟达的客户迫切需要更大、更强大的系统,DGX GH200 就是为了提供最大的吞吐量和可扩展性而设计的,它通过使用英伟达的定制 NVLink Switch 芯片来避免标准集群链接选项(如 InfiniBand 和以太网)的限制。
使用道具 举报
| 未知
lncs | 来自北京
老黄很会玩文字游戏啊,原来GPU是一张卡,后来把一台服务器叫做最大GPU,现在直接把整个集群称作GPU了。
这台机器其实不是针对大模型的,毕竟grace hopper是去年发布的,从形态上来讲其实更贴近推荐系统的需求,同时又掺杂了少量大模型的需求。
所谓144TB的memory其实是256组CPU 480GB内存(lpddr)+GPU 96GB显存(hbm)合起来算的。
一个节点内8组这样的搭配,也就是大约3.75TB的CPU内存加上768GB的显存。作为参考dgx a100/h100的CPU内存是2TB,显存是每个80GB,总共640GB,但以前没人把CPU内存加进来吧。
而且这种内存的扩展是建立在放弃CPU内存延迟的基础上的,一方面用了lpddr,传统CPU处理器估计受不了这延迟。其次,CPU侧的这8组480GB的内存是通过nvlink连起来的,带宽是没问题,但跨switch的访问延迟肯定是原地起飞了。只要你肯放弃延迟,堆内存容量其实毫无压力。
当然老黄把CPU内存加进来吹牛逼的底气在于grace hopper封装上900GB/s的CPU与GPU之间的带宽,而常规的pcie也就64GB/s的速率。
但这也是有代价的,毕竟900GB/s的带宽在pcb板级也不是特别困难的一件事,更何况grace hopper可能采用的是一些密度更高一点的基板进行了一次合封(我瞎猜的),然后才贴到最终大的主板上的,这个带宽肯定不在话下,但这里的代价在于软件适配,毕竟PCIE的好处是隔离了CPU侧的海量问题,你只要把device侧的问题解决好就行了,但改成了私有协议把CPU包含到整体设计上之后,软件层面涉及非常多非标的东西,客户使用时在生态上的痛苦,懂的都懂。
剩下的就是节点内8组直接通过两侧的nvswitch完成互联,每个节点的nvswitch对外提供3.2TB/s的双向带宽连到一堆节点间的nvswitch,最终32个节点组成整个gh200系统,其实网络上的带宽虽然堆料也堆得很足,不过256个GPU的all2all总带宽也就57.6TB/s,平均到每组grace hopper也就200GB/s,实际负载起来,900GB/s的CPU与GPU之间带宽也不一定用得满的。当做统一大内存看,还是差得太远,别被老黄的话术骗了,以为有144TB共享大带宽显存。
其实抛开老黄玩的各种文字游戏吹纸面数据,相比传统数据中心方案,最大的区别还是在去年发布的grace hopper芯片组带来的CPU与GPU的高速互联。抛开软件问题不看,虽然所有业务都能拿到收益,但收益最大的还是推荐系统。
推荐系统的特点是内存占用很大,但每次计算真正要倒腾的热数据不多,需要在TB级别的表上gather scatter很小量的数据进行计算,同时gather scatter还有一定的局部性。那么典型的系统设计都是借助CPU内存存放温数据,再在GPU侧的hbm做cache并倒腾热数据进来。甚至在ssd和CPU内存之间也来这么一层。
而大模型的特点则是内存占用大,而且每次计算基本都要倒腾全部数据,全是热数据。当然也有数据集这种冷数据。
其实大模型放到这个系统上有点尴尬的,因为热数据放到lpddr上吧,倒腾的带宽还是有点不够看。冷数据放到lpddr上吧,有点奢侈,不如放ssd上再通过ddr提前预取。
其实系统集成度做高,另一个巨大的问题就是折旧成本有点太高,比如GPU侧按照96GB HBM打满规格,坏一点就废了。CPU和GPU捆绑,lpddr也一起贴,还贴了那么多,应该还是封装基板那种集成,可能坏一小块lpddr,全系统的1/256就得扔了。这些设计会导致整个系统购买和维护成本都非常昂贵。
而这样一个略显昂贵的系统,如果做推荐系统呢,略显奢侈,当然各种带宽做大了程序员肯定爽,但非常不经济,因为你就算用ssd,好好优化一下预取策略,最终效果可能差距不大,但整个系统会抗造得多。而如果做大模型系统呢,热数据带宽还是有点不够看。
所以我猜测,grace hopper立项之初应该是瞄准推荐系统做的,但因为大模型的起飞,把很多设计冗余去掉往大模型的需求靠拢了,从而导致了目前看起来比较尴尬的状况。
NV对待大模型的真正解决方案,应该要看明年老黄掏出什么大核弹。
回复
使用道具 举报
kuangfuyen | 来自北京
老黄双手插兜,不知道谁才是对手。
具体参数在这里:
https://www.nvidia.com/en-us/data-center/dgx-gh200/我最大的感受是…已经快要数不清数量级了。


首先,Grace Hooper 是 CPU + GPU 的架构,也就是 = Neoverse V2 + H100,其中,Neoverse V2 是 NVIDIA 自研的 72 核心处理器;而 H100 的FP64 性能 是 34 TFLOPS,INT8 性能可以达到 3958 TFLOPS。


而 GH200 搭载了256块 Grace Hooper 芯片,也就意味着,它会拥有 18432 个CPU核心,144 TB HBM3 内存,运算可以达到 1 exaFLOPS,也就是100亿亿次。


而 NVIDIA DGX GH200 也是第一台突破 GPU 通过 NVLink 访问内存的 100 TB 的超级计算机。


其实,一方面是芯片的硬件能力,但更令人觉得差距巨大的,其实在于 Nvlink 这样的工程能力。
One more thing:
你以为 GH200 是老黄的极限吗…并不是,今年底 NVIDIA 还会发布一款名为 Helios 的超算系统,配备四个 DGX GH200,通过 NVIDIA Quantum-2 InfiniBand 网络互连。
也就意味着,每台 Helios 会拥有 1024 个 Grace Hopper 芯片,576TB HBM内存…是否有点太夸张了。
另外,从发布会的新闻看,Google Cloud、Meta 和 Microsoft 已经是早期客户,其中没有 AWS。
回复
使用道具 举报
黄向阳 | 来自北京
影响:只要有钱,训练大模型的机会有大了很多!现在,只要一台 DGX GH200就够训练大模型了!以前要2000张 A100的卡,现在只要一台 DGX GH200就够了!
关键指标:
显存:144TB (相比较DGX A100为640GB),约225个 DGX A100
算力:1 exaFLOPS(相比较DGX A100为 5 petaFLOPS),约200个 DGX A100。
由于 Nvidia自己搞的互联,比多台 DGX A100用 IB 的互联效率更高,这一台可以约等于250台 DGX A100了。
另外: Nvidia 打造了自己用的由四个 DGX GH200 系统组成的Nvidia Helios 超级计算机。从这个来看,搞不好四个 DGX GH200约等于10000张 A100卡互联的水平!


Nvidia CEO 黄仁勋在台湾台北 Computex 2023 上宣布,该公司的 Grace Hopper 超级芯片现已全面投产,Grace 平台现已赢得六项超级计算机大奖。这些芯片是 Huang 在 Computex 2023 上发布的其他重要公告之一的基本组成部分:该公司全新的 DGX GH200 AI 超级计算平台专为大规模生成式 AI 工作负载而构建,现在可与 256 个 Grace Hopper Superchips 配对,形成一个 144TB 的超级计算引擎用于最苛刻的生成 AI 训练任务的共享内存。Nvidia 已经有像谷歌、Meta 和微软这样的客户准备好接收最先进的系统。
Nvidia 还宣布了其新的 MGX 参考架构,该架构将帮助原始设备制造商更快地构建新的 AI 超级计算机,最多可提供 100 多个系统。最后,该公司还发布了全新的 Spectrum-X 以太网网络平台,该平台专为 AI 服务器和超级计算集群设计和优化。让我们开始吧。


Nvidia Grace Hopper 超级芯片现已投产

Grace 芯片是 Nvidia 自己的 Arm CPU-only 处理器,而 Grace Hopper Superchip 在同一个封装中结合了 Grace 72 核 CPU、Hopper GPU、96GB HBM3 和 512GB LPDDR5X,全部重量为 2000 亿个晶体管. 这种组合在 CPU 和 GPU 之间提供了惊人的数据带宽,CPU 和 GPU 之间的吞吐量高达 1 TB/s,为某些内存受限的工作负载提供了巨大的优势。


Nvidia DGX GH200 超级计算机

Nvidia 的 DGX 系统是其用于要求最苛刻的 AI 和 HPC 工作负载的首选系统和参考架构,但当前的 DGX A100 系统仅限于八个 A100 GPU 作为一个整体单元串联工作。鉴于生成式 AI 的爆炸式增长,Nvidia 的客户渴望拥有性能更高的更大系统,而 DGX H200 旨在为最大工作负载(如生成式 AI 训练、大型语言模型、推荐器)提供大规模可扩展性的终极吞吐量系统和数据分析,通过使用 Nvidia 的定制 NVLink 交换机芯片来回避标准集群连接选项(如 InfiniBand 和以太网)的限制。
关于新型 DGX GH200 AI 超级计算机更精细方面的细节仍然很少,但我们知道 Nvidia 使用带有 36 个 NVLink 开关的新型 NVLink 开关系统将 256 个 GH200 Grace Hopper 芯片和 144 TB 共享内存连接到一个内聚单元中看起来和操作起来都像一个巨大的 GPU。


DGX GH200 总共配备了 256 个 Grace Hopper CPU+GPU,轻松超过了 Nvidia 之前最大的 NVLink 连接 DGX 排列(具有八个 GPU),144TB 的共享内存比提供“仅仅”320GB 共享内存的 DGX A100 系统多了 500 倍八个 A100 GPU 之间的内存。此外,将 DGX A100 系统扩展到具有 8 个以上 GPU 的集群需要使用 InfiniBand 作为系统之间的互连,这会导致性能下降。相比之下,DGX GH200 标志着 Nvidia 首次围绕 NVLink Switch 拓扑构建了整个超级计算机集群,Nvidia 称其提供的 GPU 到 GPU 带宽是其上一代产品的 10 倍和 CPU 到 GPU 带宽的 7 倍系统。
该系统有 150 英里的光纤,重 40,000 磅,但它本身是一个 GPU。Nvidia 表示,256 颗 Grace Hopper 超级芯片将 DGX GH200 的“AI 性能”提升到了 exaflop,这意味着与 HPC 和超级计算中使用的 FP64 测量相比,该值是使用与 AI 工作负载更相关的更小数据类型来测量的。这种性能得益于 900 GB/s 的 GPU 到 GPU 带宽,考虑到 Grace Hopper 在与 NVLink 直接连接在同一块板上时与 Grace CPU 的吞吐量最高可达 1 TB/s,这是相当令人印象深刻的可扩展性-C2C芯片互联。


Nvidia 提供了 DGX GH200 的预计基准测试,其中 NVLink 交换机系统与与 InfiniBand 捆绑在一起的 DGX H100 集群正面交锋。Nvidia 在上述工作负载计算中使用了不同数量的 GPU,范围从 32 到 256,但每个系统在每次测试中都使用了相同数量的 GPU。如您所见,互连性能的爆炸式增长有望带来 2.2 到 6.3 倍的性能提升。
Nvidia 将在 2023 年底前向其主要客户 Google、Meta 和 Microsoft 提供 DGX GH200 参考蓝图,还将将该系统作为参考架构设计提供给云服务提供商和超大规模厂商。
Nvidia 也在吃自己的狗粮。该公司将部署一台新的 Nvidia Helios 超级计算机,该超级计算机由四个 DGX GH200 系统组成,将用于自己的研发工作。这四个系统共有 1,024 个 Grace Hopper 超级芯片,将与 Nvidia 的 Quantum-2 InfiniBand 400 Gb/s 网络连接在一起。

最后,一个彩蛋,送给认真看的人,Bing Chat还是非常牛逼的!看到这里,也顺手点个赞吧
回复
使用道具 举报
xiaolou2006 | 来自北京
大,非常大!

最突出的表现就是内存大。
内存和其他存储比如硬盘存储有区别吗?
有,区别大了。
你电脑里面的东西大部分是以数据形式放在硬盘里面的,所以硬盘可以很大,比如一个TB,甚至更大。
但是内存相对就很小了,比如macbook的匹配版本内存就是8个G,好点儿的就是16GB,再贵点可以到更大。
但是一般来说内存不需要很大,因为内存主要是电脑来临时存储当下需要处理的事情。
比如你打开一个excel,excel的数据就会读到内存里,然后你的操作是在内存里来回读写,一般来说需要打开的文件不会很大。
所以内存设计的不会特别大。
但是去年的OpenAI发布的ChatGPT向人展示了生成式模型的强大。
而训练生成式模型需要的就是大内存以及显存。
这段时间发布的各种开源大模型,基本上都对电脑的配置有要求


比如LLaMa,最小的70B参数的模型就得6G的内存,而最大的65B更是到了40GB,这么大的显卡明显不是普通人可以负担得起的。
而这仅仅是pre-train的模型,意思是人家已经给你训练好了,你只是用。
而train更是需要海量的资源,需要成千上万块单价10万人民币的显卡才能在2-3月内训练出GPT4。

英伟达发布的DGX GH200就这么一个芯片上的基建狂魔,它的目标客户就是吃大内存吃运算量的业务。


生成式AI,超大规模推荐系统,图形分析。
这几个基本上是数据越多越准备,因此内存越大,计算机可以同时处理的数据就越多,直接结果就是准确率高。
在内存和显存不足的前提下,倒也不是不能做,但是会影响模型的规模和限制,需要使用更复杂的策略(如模型并行化、梯度累积等)来处理。
其实这也代表了一种技术进步,以前登月的Apollo Guidance Computer(阿波罗导航计算机),
这台计算机有2048词的可擦除磁芯内存和36,864词的只读内存。
现在最差的手机也比它强大几万倍。
而那个时代做大模型是不可想象的。
但是照样可以用这种芯片把人发射到太空上去。
只能说,很多事情做不到是限制于物理世界的技术发展。


https://www.zhihu.com/video/1646625775775449088
这个就是英伟达展示的生成式AI的demo,可以实时的做高精度的场景渲染以及生成式对话。
回复
使用道具 举报
朱老师accn | 来自湖北
陈巍谈芯:作为AI超算,GH200的技术亮点主要体现在存储、互连、以及针对Transformer加速的优化。NV已经成为AI计算GPU的垄断者,牢牢的占据了GPU甚至AI芯片的头把交椅。老黄从卖卡的变成了卖组合衣柜的(服务器机柜),从此皮衣客有了放衣服的家底。


对比可看下苹果Vision Pro产品的芯片策略:
陈巍谈芯:Apple Vision Pro的空间计算与主要芯片1)大内存技术的显著提升



内存容量的巨大提升

GPU 的统一内存编程架构算力突破的基石。从上一代的640GB跃升至144TB的共享内存。这么大的内存容量,显然是为了支持更大模型的训练。对于超算来说,光插内存条是不够的,还需要在整个系统上提供更大的内存带宽与更优化的数据调度编译


内存带宽的代际提升

2)互连技术提升



连接GPU共享内存的NVLink

从技术的角度分析,互连的NVlink与NVSwitch变化不大,但是使用NVSwitch直连的GPU明显变多了。
NVLink:NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。NVLink属于导线互连。
NVSwitch:独立的NVLink交换芯片,每个 NVSwitch 都有18- 64 个 NVLink 端口。
LinkX:在GH200中,LinkX 线缆用于NVSwitch-层1和 NVSwitch-层2的交叉互连。在之前LinkX主要用于Infiniband,现在被NV使用在NVSwitch互连中。主流LinkX包括直连式铜缆 (DAC,2.5-5米传输)和有源光缆 (AOC,可达150米)两种。
在GH200服务器中,GPU互连使用了NVLink和NVSwitch,将256块GPU以更紧密更高速的双层结构进行连接。这也意味着GPU之间拥有了更高的数据带宽。根据NV提供的图示,每2个GPU最多通过2层NVSwitch就可以连通。DGX GH200 也是第一台通过 NVLink 访问内存超过100 TB 的超算。


Grace CPU 和 Hopper GPU 通过 NVLink-C2C 互连

这其中NVIDIA Grace CPU 和 Hopper GPU 通过 NVLink-C2C 互连(以GPU和NVSwitch作为数据交互的节点),功率仅有PCIe Gen5的五分之一,却提供了比PCIe Gen5多 7 倍的传输带宽。
DGX GH200 架构提供比上一代多 48 倍的 NVLink 带宽,但同时只需按照对单个 GPU 进行编程的方式即可开始AI训练。


3)针对Transformer计算的优化

Transformer 算子是BERT 到 GPT-4 等大模型的基础,且越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。Hopper GPU与Grace CPU通过NVLink直连,适合由CPU完成Transformer  Embedded等消耗大量内存的工作。
GH200中新的 Transformer 引擎与Hopper FP8 张量核心相结合,与在大型NLP模型上提供比高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。(与A100服务器相比)


新的Transformer 引擎动态调整数据格式以充分运用算力

H100 FP16 Tensor Core 的吞吐量是 A100 FP16 Tensor Core 的 3 倍

4)配套的软件生态



当然老黄也为GH200超算准备了相应的软件部分,包括集群管理与网络/存储加速库与管理,任务排序、工作流管理等集群工具,以方便客户对整个计算系统的管理。
相关阅读

H100架构分析:
陈巍谈芯:被列入禁运的英伟达最先进H100 GPU架构深入解读NVLink、Infiniband与GPU集群架构:
陈巍谈芯:GPT-4核心技术分析报告(5)——GPT-4的算力要点与芯片(收录于GPT-4/ChatGPT技术与产业分析)GPT-4核心技术概况:
陈巍谈芯:GPT-4核心技术分析报告(2)——GPT-4的技术分析(收录于GPT-4/ChatGPT技术与产业分析)陈巍:AI大模型 & GPT-4技术学习与产业资源地图(上次更新于23/07/25)Tesla超算:
陈巍谈芯:特斯拉机器人"超算"芯片全面分析(超越GPGPU?)   收录于《先进封装Chiplet与片上超算》NV GPU核心分析:
陈巍谈芯:3(上) GPGPU流式多处理器架构之取指译码发射——《GPGPU 芯片设计:原理与实践》节选存算一体介绍:
陈巍谈芯:存算一体技术是什么?发展史、优势、应用方向、主要介质(收录于存算一体芯片赛道投资融资分析/20220517更新)
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影