开启辅助访问
 找回密码
 立即注册

英伟达 GTC 2022 有什么值得关注的内容?

zhx9990 回答数5 浏览数6480
3月22日晚,英伟达GTC 2022开幕。没有了那个熟悉的厨房,但这次的阵仗反而更加豪华。英伟达用Omniverse把新总部从内到外渲染了一遍!
使用道具 举报
| 来自北京 用Deepseek满血版问问看
yeskky | 来自山东
黄仁勋在演讲的第37分钟说了一句承前启后的话——Robotics is the next wave of AI, 翻译一下就是机器人是下一代的人工智能。在一个半小时发布会上,英伟达介绍了它在支撑人工智能行业的计算需求方面做的种种工作,涉及AI的各个方面。今天,我为大家盘点下英伟达在机器人方向带来了哪些好东西。
由于英伟达爆棚的技术力,在整个行业链条上都有涉猎,我从三个层次来介绍相关的成果,分别是工具,产品,平台。
工具:英伟达的机器人研究部门这次推出了一些针对十分具体技术应用场景的工具,集成在NVIDIA Issac或者Drive平台上,之所以把它们单独拎出来,因为它们对于机器人算法研究者们有着特别的参考意义,也代表了英伟达机器人研究院的研究方向。
CuOPT:英伟达针对仓储物流场景,开发了一个实时进行机器人任务和路径优化的工具,同时它还可以允许仓库运营者在Issac sim仿真环境中建立自己仓库的数字孪生,并利用CuOPT来优化仓库的布局。说它是实时,是因为英伟达宣称它可以在机器人路径上有障碍物时调用优化器,重新规划新的全局最优的路径。类似的多机器人任务与路径规划算法在学术界已经有很多成果,但这样被一个芯片厂商拎出来集成到Issac sim里还是比较少见的,具体效果如何要等真正的仓库物流自动化方案商来评判了。


REPLICATOR:在英伟达推出的机器人平台Issac中集成了这个为用户提供实时GroundTruth数据的工具,提供的数据包括物体的3D BoundingBox,语义分割,深度图等等,可为深度感知模型的训练提供数据。


Issac Gym: 在发布会中,细心的朋友会多次看到类似下图这样的场景,这个工具也包含在Issac平台中,虽然没有单独公开介绍,但它对于机器人研究者的重要性可能还要超过前面的工具。长话短说,Issac Gym主要做了这么一件事,它把机器人仿真的全部计算环节全部迁移到了GPU上,区别于传统的仅仅把涉及神经网络的并行计算部分放到GPU,这样做的结果就是,在Issac Gym中,研究者可以利用一块GPU轻松实现上千个仿真环境的并行运行,形象地比喻,就好像你在考试前夜复制出上千个自己通宵学习,到最后上千个自己的学习所得能全部融会贯通到自己脑中。下图展现了无数无数轮退机器狗在学习掌握运动技巧。笔者亲自测试下,利用RTX3090同步训练4096台机器狗,只需要30分钟就可以让机器狗从零开始学会在复杂地形中任意穿梭。利用Issac Gym提供的全面灵活的接口,研究者可以导入自己的机器人,构建各种各样的训练任务,在极短时间内检验机器人的训练效果并迅速调整迭代,大大加快了新的成果产出的速度。


产品:英伟达主业当然还是提供计算平台,继2022年中发布了这一代AI计算机Orin系列之后,秋季GTC又“预发布”了Thor系列,将算力直接从Orin的250TOPS提高到了2000TOPS,是的,算力直接提高8倍。Thor中包含了Transformer引擎,可以更好地支持机器视觉应用开发,同时考虑到机器人/自动驾驶车辆上各种的边缘计算需求,Thor引入了多领域计算隔离机制,甚至可以在上面同时运行windows、linux、安卓系统,通过把之前需要多块主板才能满足的需求塞到一块主板上,减少了成本的同时还大大提高了整体系统的稳定性。这一点对于机器人开发其实很重要,目前的机器人为了满足各个方面的计算需求,经常的做法是塞入多块主板,比如一块主板负责单线程为主的计算,一块主板负责处理视觉相关信息,需要GPU来进行深度学习相关计算,这样的后果就是需要处理系统之间的数据通信和时间同步等问题,提高了整体系统的复杂性,也降低了稳定性,英伟达的这个思路看来确实是做了功课。


平台:


英伟达针对自动驾驶和机器人分别推出了NVIDIA Drive和NVIDIA Issac两个平台,但其实可以看出,这两个平台有一些共通的功能,比如完善的仿真和真实数据获取功能。同时又有一些针对各自特性的功能,比如Issac集成了对于机器人操作系统ROS的支持,以及针对物流机器人开发的仓储集群机器人优化工具CuOPT。在自动驾驶方面,有特有的驾驶地图(点云图,矢量图)管理生成工具等等。

英伟达在机器人领域确实有很深的技术积累,再加上有自己的机器人研究院,又有和全球各种机器人厂商的合作,看来英伟达对于争取这个next wave of AI是野心满满,这对于机器人行业从业者肯定是好事,有更强大的有针对性的硬件,又有优质的软件工具,相信机器人行业一定会早日走出现在落地困难,噱头大于实际的尴尬局面,加油!
用Deepseek满血版问问看
回复
使用道具 举报
52086 | 未知
GTC 22干货满满,众多重大发布让人惊喜:
新一代加速计算平台:NVIDIA Hopper™ 架构

NVIDIA H100 Tensor Core GPU:首款基于 Hopper 架构的 GPUNVIDIA H100是一款超大的芯片,采用 TSMC 4N 工艺,具有 800 亿个晶体管。H100 是首款支持 PCIe 5.0 标准的 GPU,也是首款采用 HBM3 标准的 GPU,单个 H100 可支持 40 Tb/s 的 IO 带宽。相比 A100,H100 的 FP8 性能提升了 6 倍,FP16、TF32、FP64 性能各提升 3 倍。
NVIDIA DGX H100:第四代 NVIDIA DGX™ 系统,这是全球首个基于全新 NVIDIA H100 Tensor Core GPU 的 AI 平台。NVIDIA DGX H100 配备 8 块 H100 GPU,总计有 6400 亿个晶体管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,24 TB/s 的显存带宽,并且可以借助 NVLink 连接多达 32 个 DGX。
NVIDIA DGX POD 与 SuperPOD:DGX H100 系统是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基础设施平台的构建模块。借助 DGX H100 系统,NVIDIA DGX SuperPOD™ 可成为具有可扩展性的卓越的企业级 AI 中心。
融合加速器 H100 CNX:将先进的 GPU 和强大的网络处理器 ConnectX-7 融合至一个模组中,网络数据通过 DMA 以 50 GB/s 的速度直接传输至 H100,从而避免 CPU,系统内存和 PCIe 等多个通道的限制,H100 CNX 能够避免带宽瓶颈,同时释放 CPU 和系统内存,以便处理应用的其他部分。
Eos 超级计算机:NVIDIA 宣布推出全球运行速度最快的 AI 超级计算机 —— NVIDIA Eos。“Eos”超级计算机将于今年晚些时候开始运行,共配备 576 台 DGX H100 系统,共计 4608 块 DGX H100 GPU,FP8 算力达到 18 EFLOPS,PF64 算力达到 275 PFLOPS,有望成为全球运行速度最快的 AI 系统。
NVIDIA Grace CPU 超级芯片

NVIDIA Grace™ CPU 超级芯片由两个 CPU 芯片组成,它们之间通过NVLink®-C2C互连在一起。NVLink-C2C 是一种新型的高速、低延迟、芯片到芯片的互连技术。
Grace 超级芯片拥有 144 个 CPU 核心,内存带宽高达 1 TB/s,是尚未发布的第 5 代顶级 CPU 的 2 到 3 倍。
软件技术堆栈更新

CUDA-X:NVIDIA 发布了 60 多项 CUDA-X™(NVIDIA 的一个库、工具和技术集)更新。这些更新涵盖了众多学科,能够显著提升 CUDA® 软件计算平台的性能。
NVIDIA Riva 2.0:NVIDIA 正式宣布了 Riva 的全面发行。NVIDIA Riva 是一种先进且基于深度学习的端到端语音 AI,2.0 版的 Riva 支持识别 7 种语言,可将神经文本转换为不同性别发声的语音,并可以通过 NVIDIA 的 TAO 迁移学习工具包进行自定义调优。
NVIDIA Merlin 1.0:NVIDIA 正式发布了 NVIDIA Merlin 的 1.0 版本。NVIDIA Merlin 是用于推荐系统的 AI 框架,可帮助企业快速构建、部署和扩展先进的AI推荐系统。
Sionna:用于 6G 物理层研究的 Sionna™ 是一个全新的 GPU 加速开源库,能够为神经网络和机器学习的集成提供原生支持。Sionna 能够实现复杂通信系统架构的快速原型设计,并且是 NVIDIA 除 Aerial (提供 AI-on-5G 的统一软件定义平台)之外在无线领域的又一项投资。
NVIDIA Omniverse平台重大更新

NVIDIA OVX 与 OVX SuperPod:用于驱动大规模数字孪生的 NVIDIA® OVX™ 计算系统。第一代 NVIDIA OVX Omniverse 计算机由8 个 NVIDIA A40 RTX GPU、3 个 ConnectX-6 200 Gbps 网卡 (NIC) 和 2 个 Intel Ice Lake CPU 组成。OVX 计算系统可以从由 8 台 OVX 服务器组成的单集群扩展到通过 NVIDIA Spectrum-3 交换架构连接的一个或多个 OVX SuperPOD(由 32 台 OVX 服务器组成),来加速大规模数字孪生模拟。
NVIDIA Omniverse Cloud:为了让更多的用户能够使用 Omniverse,NVIDIA 还发布了 Omniverse Cloud。现在只需简单的点击操作,协作者就可以通过云端 Omniverse 进行连接。
NVIDIA Spectrum-4:NVIDIA Spectrum-4 是带宽高达 51.2 Tbps 且具有 1000 亿个晶体管的非常先进的交换机,将组成世界上首个 400 Gbps 端到端网络平台。是世界领先的以太网网络平台,也是 Omniverse 计算机的骨干网络。
还有其他诸如自动驾驶等方面的新的发布,附黄仁勋主题演讲全程视频观摩学习:
<a href="http://www.zhihu.com/zvideo/1490269400976945152" data-draft-node="block" data-draft-type="link-card">
回复
使用道具 举报
globbs | 来自北京
于当地时间 3 月 22 日,英伟达在其年度 GTC 会议上引爆了两颗”核弹“:
第一颗核弹:
首款 Hopper 架构 GPU H100:采用台积电4N工艺、这个单片 GPU 由 800 亿个晶体管构成。该芯片具有多达 16896 个用于 SXM 变体的 FP32 CUDA 内核和 14592 个用于基于 PCIe 的型号的内核。

据了解,Hopper 架构是英伟达两年前所推出 Ampere 架构的继任者,名称来源于美国计算机科学先驱格蕾丝·霍珀(Grace Hopper)。


H100

特别是:这次H100也是首款支持PCle 5.0和HBM3的GPU,数据处理速度进一步飞升——内存带宽达到了3TB/s。
想要了解更多有关PCIe协议更多知识,请点击下方链接查看:
奇普乐芯片:Chiplet新时代革命?Chiplet互联互通的时代到来了!第二颗核弹则更为有意思:
Grace CPU Superchip:内含144个Arm v9架构CPU内核,缓存容量为396MB,具有ECC校验功能的LPDDR5x内存带宽达到了1TB/s。其TDP为500W,SPECint 2017成绩超过了740分。(每瓦性能是当今CPU的两倍。)

据了解,Grace CPU Superchip使用的是Arm的Neoverse N2平台,也是首个使用最新的Arm v9架构的产品,意味着可以支持PCIe 5.0、DDR5、HBM3、CCIX 2.0和CXL 2.0等特性。


Grace CPU

Grace CPU 实现的关键在于”粘合“:也就是NVLink-C2C 技术。
这让我们很容易就联想到苹果的”最强“芯M1 Ultra的关键技术:UltraFusion。

此前 M1 系列芯片一直采用苹果自己定制的封装方式来实现高速统一内存架构,而 UltraFusion 作为苹果创新定制的多晶粒架构,使用的却是 2.5D 先进封装。
想要了解更多M1 Ultra及UltraFusion技术,请点击下方链接查看:
奇普乐芯片:颠覆、突破、引领——苹果最新芯片M1 Ultra如是说根据英伟达在其年度 GTC 会议的发言,我们可以看出:
凭借先进封装,NVIDIA NVLink-C2C 互连将比 NVIDIA 芯片上的 PCIe 5.0 提供高达 25 倍的能效和 90 倍的面积效率,并实现900 GB/S 或更高的一致互连带宽。
NVIDIA超大规模计算副总裁 Ian Buck 表示:
chiplet和异构计算对于应对摩尔定律放缓是必要的。

NVIDIA利用其在高速互连方面的世界级专业知识来构建统一的开放技术,这将帮助NVIDIA的 GPU、DPU、NIC、CPU 和 SoC 创建通过chiplet构建的新型集成产品。
在进一步说明中,NVIDIA表示Superchip设计方案也将遵循由Intel、台积电、AMD、微软、Google、Meta、Qualcomm等同业者提出的UCIe规范,同时也以开放的心态与行业外从业者合作。


Superchip设计方案将对外开放

我们不难看出:
无论是GPU H100的诞生还是Grace CPU Superchip的创立,其核心技术之一都有涉及相关chiplet之间的互联互通。
如果说在过去五年时间里,芯片设计有一个突出的、全行业的趋势,那就是:
不管是多个相同的chiplet的相互串联联合,还是多个不同类型的chiplet之间的互联互通;
Chiplet都在现代芯片设计中扮演了至关重要的角色。
这次NVIDIA Grace CPU和苹果”最强“芯M1 Ultra的落地也是在对市场宣布:
未来,Chiplet的使用及与其相关的技术或许将成为一个重要的转折点。
在技术层面:
半导体行业者已经对Chiplet的落地打下了坚实的基础。
相关的封装供应商正在不断地改进chiplet所需的超精确方法;
相关的半导体工程团队也在不断地同步其chiplet之间的通信协议。
承接上文UCIe中就列出了:
对于那些只需要以经济有效的方式将两个chiplet放在一个封装上的制造商来说,可以用传统封装方法。

对于那些需要使两个chiplet的性能尽可能接近单芯片的制造商来说,先进的封装规范允许有很多通道,可以提供高带宽。


来源于UCIe白皮书

在上图UCIe白皮书中,就明确列出了:
相对于高级封装常用的45u,当我们使用更为密集的25u凸起间距时,带宽密度将上升3.24倍;
即使仍使用45u的凸起间距,1300+宽带密度(线性和面积)大约是我们使用最高效PCIe SERDES所能达到的20倍。

PCIe PHY目前的功效比约为:10pJ/b,当使用基于UCIe的设计时;由于通道覆盖范围更短,因此可以使其降低多达20倍。

UCIe还支持线性功率-带宽消耗曲线,具有非常快的进入和退出时间(对于基于SERDES的设计,s-ns与多个微秒),同时还可以节省90%以上的功耗。
想要了解更多UCIe规范,请点击下方链接查看:
奇普乐芯片:Chiplet新时代革命?Chiplet互联互通的时代到来了!一言蔽之:
无论是3月22日NVIDIA 宣布推出令人兴奋的全新NVLink-C2C 互连;

还是3月初由ASE、AMD、Intel、微软、高通、三星、台积电等十大行业巨头联合宣布成立的以构建封装创新生态系统为宗旨的UCIe(Universal Chiplet Interconnect Express)。
都在证明:
chiplet不再是需要验证的实验设计,而是已经被证明是半导体制造商可以依赖的设计。
本次我们就讲到这~
想了解更多半导体行业动态,请您持续关注我们。
下期,我们将着重为大家介绍英伟达的NVLink-C2C 技术。
奇普乐®️将在每周,不定时更新~


最后的最后,借用斯宾塞的名言:
科学本身就有诗意。
愿每一位半导体从业者可以———
梦远方,定当下。
回复
使用道具 举报
fyadi | 来自北京
芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影
芯东西3月23日凌晨报道,今日,NVIDIA(英伟达)携基于最新Hopper架构的H100 GPU系列新品高调回归!
英伟达创始人兼CEO黄仁勋依然穿着皮衣,不过这次他没有出现在几乎已成GTC大会“标配”的厨房场景中,而是在一个更具科幻感的虚拟空间。


延续以往风格,黄仁勋在主题演讲中继续秒天秒地秒空气,公布多个“全球首款”。这次他带来一系列堪称“地表最强”的AI重磅新品,随便一个精度的AI性能,都比上一代A100高出3~6倍。
虽然英伟达并购Arm的计划刚刚告吹,但它的数据中心“三芯”总路线(GPU+DPU+CPU)依然不动摇——继去年推出其首款数据中心CPU后,今天,英伟达又亮出一款基于Arm架构的Grace CPU超级芯片。


此外,黄仁勋再次派出自己的虚拟数字人化身“玩偶老黄”Toy Jensen,并跟这个表情生动的玩偶进行了一番流畅的实时问答对话。


凭借押中图形处理和人工智能(AI)两大赛道,英伟达已经成为全球半导体市值TOP1。截至文章发布时间,英伟达的市值超过6600亿美元,比第二名台积电足足多了近1100亿美元。
下面就让我们来看看本场GTC大会的完整干货:
1、H100 GPU:采用台积电4N工艺,拥有800亿个晶体管,实现了首个GPU机密计算,相比A100,FP8性能提升6倍,FP16、TF32、FP64性能各提升3倍。
2、全新NVLink Switch系统:高度可扩展,支持256块H100 GPU互连。
3、融合加速器H100 CNX:耦合H100 GPU与ConnectX-7和以太网智能网卡,可为I/O密集型应用提供更强劲的性能。
4、DGX H100:配备8块H100 GPU,总计有6400亿个晶体管,在全新的FP8精度下AI性能比上一代高6倍,可提供900GB/s的带宽。
5、DGX SuperPOD:最多由32个DGX H100组成,AI算力可达1EFLOPS。
6、Eos超级计算机:全球运行速度最快的AI超级计算机,配备576台DGX H100系统,FP8算力达到18EFLOPS,PF64算力达到275PFLOPS。
7、Grace CPU超级芯片:由两个CPU芯片组成,采用最新Armv9架构,拥有144个CPU核心和1TB/s的内存带宽,将于2023年上半年供货。
8、为定制芯片集成开放NVLink:采用先进封装技术,与英伟达芯片上的PCIe Gen 5相比,能源效率高25倍,面积效率高90倍。英伟达还将支持通用小芯片互连传输通道UCIe标准。
9、CUDA-X:60多个针对CUDA-X的一系列库、工具和技术的更新。
10、Riva 2.0:对话式AI服务Riva全面发行,2.0版本支持识别7种语言,可将神经文本转换为不同性别发声的语音。
11、Merlin 1.0:可帮助企业快速构建、部署和扩展先进的AI推荐系统。
12、Sionna:一款用于6G通信研究的AI框架。
13、OVX与OVX SuperPod:面向工业数字孪生的数据中心级服务器和超级集群。
14、Spectrum-4:全球首个400Gbps端到端网络平台,交换吞吐量比前几代产品高出4倍,达到51.2Tbps。
15、Omniverse Cloud:支持协作者们随时随地实现远程实时协同工作。
16、DRIVE Hyperion 9:汽车参考设计,拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器,总体传感器数量是上一代的两倍。
17、DRIVE Map:多模态地图引擎,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
18、Clara Holoscan MGX:可供医疗设备行业在边缘开发和部署实时AI应用的计算平台,AI算力可达每秒254~610万亿次运算。
19、Isaac for AMR:提供自主移动机器人系统参考设计。
20、Jetson AGX Orin开发者套件:在边缘实现服务器级的AI性能。
黄仁勋还介绍了英伟达创建的NVIDIA AI加速计划,通过与AI生态系统中的开发者合作,开发工程化解决方案,以确保客户放心部署。


一、H100 GPU:800亿晶体管、六大创新

每次英伟达的GPU新架构都会以一位科学家的名字来命名,这次同样如此。
新Hopper架构的命名取自美国计算机科学家格蕾丝·赫柏(Grace Hopper),她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一个发现“bug”的人。


▲格蕾丝·赫柏正在教学COBOL编程语言
1945年9月9日,格蕾丝使用的Mark Ⅱ机出现故障,经过近一天的排查,她找到了故障的原因:继电器中有一只死掉的蛾子。后来,“bug”(小虫)和“debug”(除虫)这两个词汇就作为计算机领域的专用词汇流传至今。
基于Hopper架构的一系列AI计算新品,被冠上各种“全球首款”。按行业惯例,但凡比较AI算力,必会拿英伟达最新旗舰GPU作为衡量标准。
英伟达也不例外,先“碾压”一下自己两年前发布的上一代A100 GPU。
作为全球首款基于Hopper架构的GPU,英伟达 H100接过为加速AI和高性能计算(HPC)扛旗的重任,FP64、TF32、FP16精度下AI性能都达到A100的3倍。


可以看到,NVIDIA越来越热衷于走稀疏化路线。过去六年,英伟达相继研发了使用FP32、FP16进行训练的技术。此次H100的性能介绍又出现了新的Tensor处理格式FP8,而FP8精度下的AI性能可达到4PFLOPS,约为A100 FP16的6倍。
从技术进展来看,H100有6项突破性创新:
1)先进芯片:H100采用台积电4N工艺、台积电CoWoS 2.5D封装,有800亿个晶体管(A100有540亿个晶体管),搭载了HBM3显存,可实现近5TB/s的外部互联带宽。
H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3标准的GPU,单个H100可支持40Tb/s的IO带宽,实现3TB/s的显存带宽。黄仁勋说,20块H100 GPU便可承托相当于全球互联网的流量。
2)新Transformer引擎:该引擎将新的Tensor Core与能使用FP8和FP16数字格式的软件结合,动态处理Transformer网络的各个层,在不影响准确性的情况下,可将Transformer模型的训练时间从数周缩短至几天
3)第二代安全多实例GPU:MIG技术支持将单个GPU分为7个更小且完全独立的实例,以处理不同类型的作业,为每个GPU实例提供安全的多租户配置。H100能托管7个云租户,而A100仅能托管1个,也就是将MIG的部分能力扩展了7倍。每个H100实例的性能相当于两个完整的英伟达云推理T4 GPU。
4)机密计算:H100是全球首款具有机密计算功能的GPU加速器,能保护AI模型和正在处理的客户数据,可以应用在医疗健康和金融服务等隐私敏感型行业的联邦学习,以及共享云基础设施。


5)第4代英伟达NVLink:为了加速大型AI模型,NVLink结合全新外接NVLink Switch,可将NVLink扩展为服务器间的互联网络,最多连接多达256个H100 GPU,相较于上一代采用英伟达 HDR Quantum InfiniBand网络,带宽高出9倍
6)DPX指令:Hopper引入了一组名为DPX的新指令集,DPX可加速动态编程算法,解决路径优化、基因组学等算法优化问题,与CPU和上一代GPU相比,其速度提升分别可达40倍和7倍
总体来说,H100的这些技术优化,将对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。
比如,用H100支持聊天机器人使用的monolithic Transformer语言模型Megatron 530B,吞吐量比上一代产品高出30倍,同时能满足实时对话式AI所需的次秒级延迟。
再比如用H100训练包含3950亿个参数的混合专家模型,训练速度可加速高达9倍,训练时间从几周缩短到几天。


H100将提供SXM和PCIe两种规格,可满足各种服务器设计需求。
其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服务器主板;H100 PCIe通过NVLink连接两块GPU,相较PCIe 5.0可提供7倍以上的带宽。PCIe规格便于集成到现有的数据中心基础设施中。
这两种规格的电力需求都大幅增长。H100 SXM版的散热设计功耗(TDP)达到700W,比A100的400W高出75%。据黄仁勋介绍,H100采用风冷和液冷设计。


这款产品预计于今年晚些时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于H100的实例。
为了将Hopper的强大算力引入主流服务器,英伟达推出了全新的融合加速器H100 CNX。它将网络与GPU直接相连,耦合H100 GPU与英伟达ConnectX-7 400Gb/s InfiniBand和以太网智能网卡,使网络数据通过DMA以50GB/s的速度直接传输到H100,能够避免带宽瓶颈,为I/O密集型应用提供更强劲的性能。


二、更强企业级AI系统,全球最快AI超算

基于A100,英伟达最先进的企业级AI基础设施DGX H100系统、DGX POD、DGX SuperPOD以及一一登场。它们将从今年第三季度开始供应。
黄仁勋称,在财富10强企业和100强企业中,分别有8家和44家企业使用DGX作为AI基础架构。
英伟达DGX系统现在包含英伟达AI Enterprise软件套件,该套件新增了对裸金属基础设施的支持。DGX客户可使用软件套件中的预训练AI平台模型、工具包和框架来加快工作速度。
1、DGX H100:最先进的企业级AI基础设施
第四代英伟达DGX系统DGX H100是一款基于英伟达H100 Tensor Core GPU的AI平台。


每个DGX H100系统配备8块H100 GPU,总计有6400亿个晶体管,由NVLink连接,在全新的FP8精度下AI性能可达32Petaflops,比上一代系统性能高6倍
DGX H100系统中每块GPU都通过第四代 NVLink连接,可提供900GB/s的带宽,是上一代系统的1.5倍。DGX H100的显存带宽可达24TB/s。
该系统支持双x86 CPU,每个系统还包含2个英伟达BlueField-3 DPU,用于卸载、加速和隔离高级网络、存储及安全服务。
8个英伟达ConnectX-7 Quantum-2 InfiniBand网卡能够提供400GB/s的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了1倍


2、DGX SuperPOD:FP8 AI性能达1Exaflops
DGX H100系统是新一代英伟达DGX POD和DGX SuperPOD超级计算机的构建模块。


借助NVLink Switch系统,拥有32个节点、256个GPU的DGX Pod,其HBM3显存达20.5TB,显存带宽高达768TB/s。
“相比之下,整个互联网不过只有100TB/s。”黄仁勋感慨道。每个DGX都可借助4端口光学收发器连接到NVLink Switch,每个端口都有8个100G-PAM4通道,每秒能够传输100GB,32个NVLink收发器连接到1个机架单元的NVLink Switch系统。


新一代DGX SuperPOD可提供1Exaflops的FP8 AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的大型语言模型工作负载;还有20TB的HBM3显存、192TFLOPS的SHARP网络计算性能。
通过采用Quantum-2 InfiniBand连接及NVLink Switch系统,新DGX SuperPOD架构在GPU之间移动数据的带宽高达70TB/s,比上一代高11倍
Quantum-2 InfiniBand交换机芯片拥有570亿个晶体管,能提供64个400Gbps端口。多个DGX SuperPOD单元可组合使用。


此外,英伟达推出新的DGX-Ready托管服务计划,以助力简化AI部署。其DGX Foundry托管的开发解决方案正在全球扩展,北美、欧洲和亚洲的新增地点支持远程访问DGX SuperPOD。
DGX Foundry中包含英伟达Base Command软件,该软件能够使客户基于DGX SuperPOD基础设施,轻松管理端到端AI开发生命周期。
3、Eos:全球运行速度最快的AI超算
黄仁勋还透露说,英伟达正在打造Eos超级计算机,并称这是“首个Hopper AI工厂”,将于数月后推出。
该超算包含18个DGX POD、576台DGX H100系统,共计4608块DGX H100 GPU,预计将提供18.4Exaflops的AI算力,这比目前运行速度最快的日本富岳(Fugaku)超级计算机快4倍。在传统科学计算方面,Eos预计可提供275Petaflops的性能


三、由两个CPU组成的超级芯片

除了GPU外,英伟达数据中心“三芯”战略中另一大支柱CPU也有新进展。
今日,英伟达推出首款面向HPC和AI基础设施的基于Arm Neoverse的数据中心专属CPU——Grace CPU超级芯片。
这被黄仁勋称作“AI工厂的理想CPU”


据介绍,Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接,其关键驱动技术是内存一致性芯片之间的NVLink互连,每个链路的速度达到900GB/s。
Grace CPU超级芯片也可以是由两个CPU芯片组成。它们之间通过高速、低延迟的芯片到芯片互连技术NVLink-C2C连在一起。


基于最新的Armv9架构,单个socket拥有144个CPU核心,具备最高的单线程核心性能,支持Arm新一代矢量扩展
在SPECrate®2017_int_base基准测试中,Grace CPU超级芯片的模拟性能得分为740,据英伟达实验室使用同类编译器估算,这一结果相比当前DGX A100搭载的双CPU高1.5倍以上
此外,Grace CPU超级芯片可实现当今领先服务器芯片内存带宽和能效的2倍
其依托带有纠错码的LPDDR5x内存组成的创新的内存子系统,能实现速度和功耗的最佳平衡。LPDDR5x内存子系统提供两倍于传统DDR5设计的带宽,可达到1TB/s,同时功耗也大幅降低,CPU加内存整体功耗仅500瓦
Grace CPU超级芯片可运行所有的英伟达计算软件栈,结合英伟达ConnectX-7网卡,能够灵活地配置到服务器中,或作为独立的纯CPU系统,或作为GPU加速服务器,可以搭配1块、2块、4块或8块基于Hopper的GPU。


也就是说,用户只维护一套软件栈,就能针对自身特定的工作负载做好性能优化。
黄仁勋说,Grace超级芯片有望明年开始供货。
四、为定制芯片集成开放NVLink,将支持UCIe小芯片标准

我们单独来说一下NVLink-C2C技术。
前面说的Grace CPU超级芯片系列、去年发布的Grace Hopper超级芯片都采用了这一技术来连接处理器芯片。
NVIDIA超大规模计算副总裁Ian Buck认为:“为应对摩尔定律发展趋缓的局面,必须开发小芯片和异构计算。”
因此,英伟达利用其在高速互连方面的专业知识开发出统一、开放的NVLink-C2C互连技术。
该技术将支持定制裸片与英伟达GPU、CPU、DPU、NIC和SoC之间实现一致的互连,从而通过小芯片构建出新型的集成产品,助力数据中心打造新一代的系统级集成。


NVLink-C2C现已为半定制芯片开放,支持其与NVIDIA技术的集成。
通过采用先进的封装技术,英伟达NVLink-C2C互连链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面积效率高出90倍,可实现每秒900GB乃至更高的一致互联带宽。
NVLink-C2C支持Arm AMBA一致性集线器接口(AMBA CHI)协议,或CXL工业标准协议,可实现设备间的互操作性。当前英伟达和Arm正在密切合作,以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。
当前英伟达和Arm正在密切合作,以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。
NVIDIA NVLink-C2C依托于英伟达的SERDES和LINK设计技术,可从PCB级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。
除NVLink-C2C之外,NVIDIA还将支持本月早些时候发布的通用小芯片互连传输通道UCIe标准。


▲UCIe标准
与NVIDIA芯片的定制芯片集成既可以使用UCIe 标准,也可以使用NVLink-C2C,而后者经过优化,延迟更低、带宽更高、能效更高。
五、AI软件:对话式AI服务全面发行,推出推荐系统AI框架1.0版本

如今英伟达已经能提供全栈AI,除了AI计算硬件外,其AI软件也有不少进展。
黄仁勋说,AI已经从根本上改变了软件的能力以及开发软件的方式,过去十年,英伟达加速计算在AI领域实现了百万倍的加速。
今日,英伟达发布了60多个针对CUDA-X的一系列库、工具和技术的更新,以加速量子计算和6G研究、网络安全、基因组学、药物研发等领域的研究进展。
英伟达将使用其首台AI数字孪生超级计算机Earth-2来应对气候变化挑战,并创建了Physics-ML模型来模拟全球天气模式的动态变化。


英伟达还与来自加州理工学院、伯克利实验室等高校及科研机构的研究人员们开发了一个天气预报AI模型FourCastNet,该模型基于10TB的地球系统数据进行训练,首次在降水预测上达到比先进的数值模型更高的准确率,并使预测速度提高了4~5个数量级。以前,传统的数值模拟需要一年时间,而现在只需几分钟。


NVIDIA Triton是一款开源的、超大规模的模型推理服务器,是AI部署的“中央车站”,它支持CNN、RNN、GNN、Transformer等各种模型、各类AI框架及各类机器学习平台,支持在云、本地、边缘或嵌入式设备运行。
同时,黄仁勋宣布英伟达对话式AI服务Riva全面发行,Riva 2.0版本支持识别7种语言,可将神经文本转换为不同性别发声的语音,用户可通过其TAO迁移学习工具包进行自定义调优。
Maxine是一个AI模型工具包,现已拥有30个先进模型,可优化实时视频通信的视听效果。比如开远程视频会议时,Maxine可实现说话者与所有参会者保持眼神交流,并能将说的语言实时切换成另一种语言,而且音色听起来不变。


本次GTC发布的版本增加了用于回声消除和音频超分辨率的新模型。
此外,黄仁勋也宣布推出英伟达面向推荐系统的AI框架Merlin的1.0版本
Merlin可帮助企业快速构建、部署和扩展先进的AI推荐系统。比如,微信用Merlin将短视频推荐延迟缩短为原来的1/4,并将吞吐量提升了10倍。从CPU迁移至GPU,腾讯在该业务上的成本减少了1/2。
在医疗健康领域,黄仁勋谈道,过去几年,AI药研初创公司获得了超400亿美元的投资,数字生物学革命的条件已经成熟,他称这将是“NVIDIA AI迄今为止最伟大的使命”。
6G标准于2026年左右问世,一些相关基础技术逐渐成形。对此,黄仁勋宣布推出了一款用于6G通信研究的AI框架Sionna
六、Omniverse:首推数字孪生专用服务器和超级集群

黄仁勋认为,第一波AI学习是感知和推理,下一波AI的发展方向是机器人,也就是使用AI规划行动。英伟达Omniverse平台也正成为制造机器人软件时必不可少的工具。


作为虚拟世界的仿真引擎,Omniverse平台能遵循物理学定律,构建一个趋真的数字世界,可以应用于使用不同工具的设计师之间的远程协作,以及工业数字孪生。
黄仁勋认为,工业数字孪生需要一种专门构建的新型计算机,因此英伟达打造了面向工业数字孪生的OVX服务器和OVX SuperPOD超级集群。


OVX是首款Omniverse计算系统,由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps网卡(NIC)和2个英特尔至强Ice Lake CPU组成。
32台OVX服务器可构成OVX SuperPOD超级集群,实现这一连接的关键设施是英伟达今日新推出的Spectrum-4以太网平台。


据悉,这是全球首个400Gbps端到端网络平台,其交换吞吐量比前几代产品高出4倍,聚合ASIC带宽达到51.2Tbps,支持128个400GbE端口。
Spectrum-4实现了纳秒级计时精度,相比典型数据中心毫秒级抖动提升了5~6个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4,功耗降低了40%。
该平台由英伟达Spectrum-4交换机系列、ConnectX-7智能网卡、BlueField-3 DPU和DOCA数据中心基础设施软件组成,可提高AI应用、数字孪生和云基础架构的性能和可扩展性,大幅加速大规模云原生应用。
Spectrum-4 ASIC和SN5000交换机系列基于4nm工艺,有1000亿个晶体管,并经过简化的收发器设计,实现领先的能效和总拥有成本。


Spectrum-4可在所有端口之间公平分配带宽,支持自适应路由选择和增强拥塞控制机制,能显著提升数据中心的应用速度。
Spectrum-4 ASIC具有12.8Tbp加密带宽和领先的安全功能,例如支持MACsec和VXLANsec,并通过硬件信任根将安全启动作为默认设置,帮助确保数据流和网络管理的安全性和完整性。
现在各大计算机制造商纷纷推出OVX服务器,对于想在OVX试用Omniverse的客户,英伟达在全球多地提供LaunchPad计划,第一代OVX正由英伟达和早期客户运行,第二代OVX正被构建中。Spectrum-4的样机将在今年第四季度末发布。
随后,曾在往届GTC大会展示过的黄仁勋虚拟化身“玩偶老黄”Toy Jensen再度现身。


它不是录像,而能做到完全实时地进行眼神交流与对话。黄仁勋现场问它“什么是合成生物学”、“你是如何制作出来的”等问题,它都对答如流。
使用英伟达Omniverse Avatar框架,企业就能快速构建和部署像Toy Jensen这样的虚拟形象,从模仿声音到细微的头部及身体运动,乃至高保真度的形象塑造,都让虚拟人更加灵动。
最后,得益于Riva中的最新对话式AI技术和超大语言模型Megatron 530B NLP,虚拟人可以听懂你问的问题,也能跟你实时聊天互动。


在此基础上,英伟达宣布将推出Omniverse Cloud。通过Omniverse Cloud连接,协作者们使用英伟达RTX PC、笔记本电脑和工作站,均可实现远程实时协同工作。
用户如果没有RTX计算机,只需点击一下,即可从GeForce Now上启动Omniverse。
七、汽车:预告DRIVE Hyperion 9,推出多模态地图引擎

Omniverse平台是整个工作流程的核心,DRIVE平台则相当于AI司机。
黄仁勋宣布下一代DRIVE Hyperion 9将从2026年起搭载到汽车中,它将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器,总体传感器数量将是Hyperion 8的两倍。


此外,英伟达推出了一种多模态地图引擎NVIDIA DRIVE Map,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
DRIVE Map有两个地图引擎,真值测绘地图引擎和众包车队地图引擎。黄仁勋谈道,到2024年,他们预计绘制并创建北美、西欧和亚洲所有主要公路的数字孪生,总长度约为50万公里。
“我们正在构建地球级别的自动驾驶车队数字孪生。”黄仁勋说。
合作方面,全球第二大电动汽车制造商比亚迪将在2023年上半年开始投产的汽车中搭载DRIVE Orin计算平台。自动驾驶独角兽企业元戎启行、中国自动驾驶创企云骥智行也宣布将在其L4级自动驾驶车规级量产方案中搭载NVIDIA DRIVE Orin SoC芯片。
美国电动汽车公司Lucid Motors、中国L4级自动驾驶科技公司文远知行、中国新型电动车公司悠跑科技均宣布将应用英伟达DRIVE Hyperion自动驾驶汽车平台。
八、机器人平台:从医疗设备到自主移动机器人

黄仁勋认为下一波AI浪潮是机器人,英伟达正在构建多个机器人平台,包括用于自动驾驶汽车的DRIVE、用于操纵和控制系统的Isaac、用于自主式基础架构的Metropolis、用于医疗设备的Holoscan等。
他将机器人系统的工作流程简化为真值数据生成、AI模型训练、Omniverse数字孪生、机器人技术栈四大支柱。
Clara Holoscan MGX是一个开放可扩展的机器人平台,其设计符合IEC-62304医疗级规格,核心计算机为Jetson AGX Orin和ConnectX-7智能网卡,并可选配NVIDIA RTX A6000 GPU。
该平台AI算力可达每秒254~610万亿次运算,目前向早期体验客户开放,正式上市时间是5月,并将于2023年第一季度完成医疗级准备


Metropolis平台的下载量已经达到30万次,拥有1000多个生态系统合作伙伴,并在超过100万个设施中运营。
机器人发展最快的领域之一是自主移动机器人(AMR),它本质上是室内无人驾驶,速度偏低但环境高度非结构化。
今天,英伟达推出Isaac for AMR,它有四大核心:用于真值生成的NVIDIA DeepMap、用于训练模型的NVIDIA AI、搭载Orin的AMR机器人参考设计、Isaac机器人技术堆栈中的新Gem及基于Omniverse的新版Isaac Sim,每个都单独可用且完全开放。
与DRIVE Hyperion类似,Isaac Nova是一个AMR机器人系统参考设计,整个Isaac堆栈都基于此构建。Nova有2个摄像头、2个激光雷达、8个超声波雷达和4个鱼眼摄像头。
英伟达还宣布推出Jetson Orin开发者套件以在边缘实现服务器级的AI性能。
Nova AMR将于第二季度上市,它将配备英伟达新的DeepMap雷达制图系统,可以扫描和重建环境,以进行路线规划和数字孪生仿真。


结语:AI开发者的前沿技术盛宴

这些年来,英伟达GTC大会已经成为一场面向AI、HPC、科学计算、数字孪生及自动驾驶等诸多前沿领域的技术盛宴。
在这场盛宴中,我们不仅看到技术突破改变各行各业的生产效率和工作方式,也看到英伟达围绕计算世界的最新布局。
随着新一代大规模云技术的出现,数据中心架构有待转型。在稳拥GPU基本盘的基础之上,英伟达的角色正从图形显示和加速计算“偏科学霸”,转向围绕数据中心三大芯片支柱全面发展。
黄仁勋认为,数据中心正在转变成“AI工厂”,它通过处理海量的数据来实现智能,而今日推出的H100便是实现企业AI业务加速的引擎。
H100的多项技术创新,数据中心专属Grace CPU超级芯片的特殊设计,以及AI和Omniverse平台的持续升级,进一步扩大了英伟达在加速AI训练及推理领域的领导地位。
在为期4天的英伟达GTC大会上,我们还将看到更多不同细分领域的专家,分享他们如何利用AI和加速计算领域的技术创新,来开展各类开创性的研究或解决正面临的挑战。
回复
使用道具 举报
nestofhk | 来自广东
北京时间2022年3月21日晚23:00,NVIDIA 2022年GTC大会正式开启。正如各家媒体预测的那样,官方不但发了万众瞩目的Hopper架构H100加速卡,还推出了专为AI及超算设计的CPU处理器Grace、AI计算系统“DGX H100”。


值得一提的是,Grace芯片拥有144个核心,内存带宽达恐怖的1TB/s,而整体功耗仅为500W。作为GPU领域的龙头企业,Nvidia表示Grace在性能方面完全碾压业内所有对手。
厚积薄发的Grace
事实上,NVIDIA早在2021年就对外宣布了Grace芯片,但其详细规格始终是个迷。今晚,官方终于宣布了它的详细规格:两个CPU芯片,一个叫做Grace Hopper,为CPU+GPU合体设计,它使用了Nvidia的最新NVLink技术连接,带宽为900GB/s。


与之相较,另个一名为Grace CPU Superchip的芯片则更为强大,它的规格是两个Grac CPU一起封装,总共拥有144个基于ARMv9指令集的CPU内核,缓存容量396MB,支持LPDDR5X ECC内存,带宽为1TB/s。另外,这款芯片还支持PCIe 5.0、NVLink-C2C互连。


在外界最关注的性能方面,Grace CPU Superchip的SPECint 2017得分为740分,暂时登上了业内最顶峰。


在首席执行官黄仁勋看来,在Grace Hopper及Grace CPU Superchip的加持下,NVIDIA在未来可以灵活搭配各种B端方案,就像是搭积木那样简单。


在宣布完规格后,老黄表示:Grace CPU Superchip芯片会在2023年上市。


专攻AI的Hopper
与传闻不同,GH100核心采用的其实是台积电目前最先进的4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。


官方没有公布核心数,但已经被挖掘出来,和此前传闻一直。
完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计1843个。


显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。
Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。
扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0,相比A100也多了一半。整卡对外总带宽4.9TB/s。
性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。


H100计算卡采用SXM、PCIe 5.0两种形态,其中后者功耗高达史无前例的700W,相比A100多了整整300W。
按惯例也不是满血,GPC虽然还是8组,但只开启了66组TPC(魅族GPC屏蔽一组TPC)、132组SM,总计有16896个CUDA核心、528个Tensor核心、50MB二级缓存。
显存只用了五颗,最新一代HBM3,容量80GB,位宽5120-bit,带宽高达3TB/s,相比A100多了一半。


史无前例的DGX H100
在拥有了强大的芯片基础后,NVIDIA也拥有了强大的算力基础,并以此推出了更加强大的AI运算系统:DGX H100。


据官方介绍,该系统集成了八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器)。在规格方面,它总共有用6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。


性能方面,DGX H100的AI算力为32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。


同时,它还配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。
事实上,如此强大的DGX H100还只是最小的计算单元。为了扩展其应用规模,NVIDIA本次还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。


在这套拥有极致性能的系统内,NVIDIA为其塞入了20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。


据黄仁勋表示,目前DGX H100的合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。


另外,该系统的云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。


广泛的应用领域
众所周知,近几年兴起的人工智能浪潮,根本原因正是计算力的快速发展,结合互联网、物联网带来的海量数据和深度学习等先进算法共同催生而成,其实际应用效果和社会影响力远远超出以往。
但是,随着人工智能的快速发展,更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下,如果计算力不能相应增长,整个人工智能的学习过程将变得无比漫长。可以说,人工智能对计算的需求是永无止境的。


正式基于以上背景,我们也就不难理解NVIDIA在这机年中快速崛起的真正秘诀:正是因为其强大的GPU有效弥补了CPU的不足,并大大加速了处理高强度计算负载的能力,从而让GPU计算的潜力得以全面的释放。
在本次GTC大会上,NVIDIA不但推出了强大的运算芯片,还就AI领域的发展、以及该技术在科研、数字孪生、自动驾驶乃至金融等行业的深度应用作出了前瞻。


在我们看来,NVIDIA一系列围绕人工智能领域的布局和创新,不仅是大势所趋,更是这家芯片业巨头在新时代的新使命。可以说,AI赋予了NVIDIA未来更大的想象力,而NVIDIA也正引领人工智能走向更大的舞台。
回复
使用道具 举报

相关问题更多>

快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影