|
黄向阳
| 来自北京
影响:只要有钱,训练大模型的机会有大了很多!现在,只要一台 DGX GH200就够训练大模型了!以前要2000张 A100的卡,现在只要一台 DGX GH200就够了!
关键指标:
显存:144TB (相比较DGX A100为640GB),约225个 DGX A100
算力:1 exaFLOPS(相比较DGX A100为 5 petaFLOPS),约200个 DGX A100。
由于 Nvidia自己搞的互联,比多台 DGX A100用 IB 的互联效率更高,这一台可以约等于250台 DGX A100了。
另外: Nvidia 打造了自己用的由四个 DGX GH200 系统组成的Nvidia Helios 超级计算机。从这个来看,搞不好四个 DGX GH200约等于10000张 A100卡互联的水平!
Nvidia CEO 黄仁勋在台湾台北 Computex 2023 上宣布,该公司的 Grace Hopper 超级芯片现已全面投产,Grace 平台现已赢得六项超级计算机大奖。这些芯片是 Huang 在 Computex 2023 上发布的其他重要公告之一的基本组成部分:该公司全新的 DGX GH200 AI 超级计算平台专为大规模生成式 AI 工作负载而构建,现在可与 256 个 Grace Hopper Superchips 配对,形成一个 144TB 的超级计算引擎用于最苛刻的生成 AI 训练任务的共享内存。Nvidia 已经有像谷歌、Meta 和微软这样的客户准备好接收最先进的系统。
Nvidia 还宣布了其新的 MGX 参考架构,该架构将帮助原始设备制造商更快地构建新的 AI 超级计算机,最多可提供 100 多个系统。最后,该公司还发布了全新的 Spectrum-X 以太网网络平台,该平台专为 AI 服务器和超级计算集群设计和优化。让我们开始吧。
Nvidia Grace Hopper 超级芯片现已投产
Grace 芯片是 Nvidia 自己的 Arm CPU-only 处理器,而 Grace Hopper Superchip 在同一个封装中结合了 Grace 72 核 CPU、Hopper GPU、96GB HBM3 和 512GB LPDDR5X,全部重量为 2000 亿个晶体管. 这种组合在 CPU 和 GPU 之间提供了惊人的数据带宽,CPU 和 GPU 之间的吞吐量高达 1 TB/s,为某些内存受限的工作负载提供了巨大的优势。
Nvidia DGX GH200 超级计算机
Nvidia 的 DGX 系统是其用于要求最苛刻的 AI 和 HPC 工作负载的首选系统和参考架构,但当前的 DGX A100 系统仅限于八个 A100 GPU 作为一个整体单元串联工作。鉴于生成式 AI 的爆炸式增长,Nvidia 的客户渴望拥有性能更高的更大系统,而 DGX H200 旨在为最大工作负载(如生成式 AI 训练、大型语言模型、推荐器)提供大规模可扩展性的终极吞吐量系统和数据分析,通过使用 Nvidia 的定制 NVLink 交换机芯片来回避标准集群连接选项(如 InfiniBand 和以太网)的限制。
关于新型 DGX GH200 AI 超级计算机更精细方面的细节仍然很少,但我们知道 Nvidia 使用带有 36 个 NVLink 开关的新型 NVLink 开关系统将 256 个 GH200 Grace Hopper 芯片和 144 TB 共享内存连接到一个内聚单元中看起来和操作起来都像一个巨大的 GPU。
DGX GH200 总共配备了 256 个 Grace Hopper CPU+GPU,轻松超过了 Nvidia 之前最大的 NVLink 连接 DGX 排列(具有八个 GPU),144TB 的共享内存比提供“仅仅”320GB 共享内存的 DGX A100 系统多了 500 倍八个 A100 GPU 之间的内存。此外,将 DGX A100 系统扩展到具有 8 个以上 GPU 的集群需要使用 InfiniBand 作为系统之间的互连,这会导致性能下降。相比之下,DGX GH200 标志着 Nvidia 首次围绕 NVLink Switch 拓扑构建了整个超级计算机集群,Nvidia 称其提供的 GPU 到 GPU 带宽是其上一代产品的 10 倍和 CPU 到 GPU 带宽的 7 倍系统。
该系统有 150 英里的光纤,重 40,000 磅,但它本身是一个 GPU。Nvidia 表示,256 颗 Grace Hopper 超级芯片将 DGX GH200 的“AI 性能”提升到了 exaflop,这意味着与 HPC 和超级计算中使用的 FP64 测量相比,该值是使用与 AI 工作负载更相关的更小数据类型来测量的。这种性能得益于 900 GB/s 的 GPU 到 GPU 带宽,考虑到 Grace Hopper 在与 NVLink 直接连接在同一块板上时与 Grace CPU 的吞吐量最高可达 1 TB/s,这是相当令人印象深刻的可扩展性-C2C芯片互联。
Nvidia 提供了 DGX GH200 的预计基准测试,其中 NVLink 交换机系统与与 InfiniBand 捆绑在一起的 DGX H100 集群正面交锋。Nvidia 在上述工作负载计算中使用了不同数量的 GPU,范围从 32 到 256,但每个系统在每次测试中都使用了相同数量的 GPU。如您所见,互连性能的爆炸式增长有望带来 2.2 到 6.3 倍的性能提升。
Nvidia 将在 2023 年底前向其主要客户 Google、Meta 和 Microsoft 提供 DGX GH200 参考蓝图,还将将该系统作为参考架构设计提供给云服务提供商和超大规模厂商。
Nvidia 也在吃自己的狗粮。该公司将部署一台新的 Nvidia Helios 超级计算机,该超级计算机由四个 DGX GH200 系统组成,将用于自己的研发工作。这四个系统共有 1,024 个 Grace Hopper 超级芯片,将与 Nvidia 的 Quantum-2 InfiniBand 400 Gb/s 网络连接在一起。
最后,一个彩蛋,送给认真看的人,Bing Chat还是非常牛逼的!看到这里,也顺手点个赞吧 |
|