英伟达称 Arm Grace CPU 超级芯片比英特尔 Ice Lake 快 2 ..._ZNDS问答

yinyin8529

IT之家 4 月 10 日消息，上个月，英伟达在 GTC 上推出了其最新的 144 核 Grace CPU Superchip，这是其第一款专为数据中心设计的基于 Arm 架构的 CPU 芯片。

8月最后一天，芯片圈传来巨震！美国芯片设计巨头英伟达被美国政府要求限制向中国出口两款被用于加速人工智能任务的最新两代旗舰GPU计算芯片A100和H100。英伟达在SEC文件上官方确认了此事。
2020年，英伟达在GTC战略发布中将DPU定义为“第三颗主力芯片”，行业自此进入蓬勃发展期。作为主力芯片新物种，DPU市场空间正快速扩张，预计至2025年，全球、国内市场有望分别达到 245.3 亿美元、565.9 亿元，复合增速分别为 51.73%、170.60%。
当前，DPU正快速进入数据中心/云计算、智能驾驶、数据通信、网络安全、信创、国防军工等领域。特别是在数据中心/云计算应用场景，需求较为迫切。
本期小编为大家强烈推荐兴业证券的报告《DPU：第三颗主力芯片，崛起的新物种》，复盘DPU发展路线，展望未来发展趋势。想收藏本文的完整报告，可以在智成企业研究院公众号回复关键词“XYDPU”获取。

（正文9100字，阅读时间20-25分钟，建议先收藏后阅读！）

01 大数据时代，DPU成为第三颗主力芯片

大数据催生多元算力新计算架构，DPU 逢时而生。随着数字经济不断发展，全球新一轮科技革命正加速演进。

政策层面，我国正自上而下推进数字化转型，“新基建”、“东数西算”、“双碳减排”等规划陆续推出；技术层面，云计算、智能驾驶、元宇宙等产业不断发展，下游应用场景多样化带来数据激增，不断催生多元算力需求，DPU 逢时而生。

DPU（数据处理器，Data Processing Unit），是数据中心第三颗主力芯片。2016 年，DPU 首次由美国公司 Fungible 提出，其主要目标是优化和提升数据中心效能。根据 IDC 统计，全球算力需求平均每 3.5 个月翻一倍，而作为支撑算力的基础，传统以 CPU 为中心的“CPU+xPU”多元化异构计算架构在性能提升上越发乏力。

从 CPU 性能与网络带宽的过往发展趋势来看：网络带宽 CAGR 从 2010 年前的 30%，提升至当前的 45%；与之相对应的 CPU 性能 CAGR 从 2010 年前的 23%，下降至当前的 3.5%；RBP 指标从 1 附近，上升到 10 以上，CPU 应对网络带宽增长带来的计算需求压力不断增大。

因此，具备网络能力，并同时融入通用计算能力，可进行安全与存储卸载功能的下一代智能网卡 DPU 逢时而生，成为继 CPU、GPU 之后的第三颗主力芯片，助力数据中心更高效的应对多元化的算力需求。

▲带宽性能增速比（RBP）失调

从 DPU 的产业发展历程来看，NVIDIA 是全球先行者。2020 年上半年，NVIDIA 以69 亿美元的对价收购以色列网络芯片公司 Mellanox Technologies，并于同年推出 BlueField-2 DPU，将其定义为继 CPU 和 GPU 之后“第三颗主力芯片”，正式拉开 DPU 大发展的序幕。

▲NVIDIA BlueField-2 DPU 产品情况

非单一芯片，DPU 是智能网卡进化的下一形态。DPU 是由基础网卡进化而来，是智能网卡发展的下一形态。其进化史可分为三个主要阶段：

阶段一：普通网卡，提供网络吞吐能力。普通网卡（基础功能网卡）提供 2x10G 或 2x25G 带宽吞吐能力，具有较少硬件卸载能力，主要是 Checksum、LRO/LSO 等，支持 SR-IOV，以及有限多队列能力。在云平台虚拟化网络中，普通网卡向虚拟机（VM）提供的网络接入方式主要有三种：

1）由操作系统内核驱动接管网卡并向虚拟机（VM）分发网络流量；2）由OVS-DPDK 接管网卡并向虚拟机（VM）分发网络流量；3）高性能场景下通过 SR-IOV 的方式向虚拟机（VM）提供网络接入能力。

阶段二：硬件卸载，协助 CPU 进行网络负载。随着云计算不断发展，普通网卡已经不能满足数据中心对虚拟化的要求，因此，第一代具备硬件加速能力的智能网卡 SmartNIC 演进而来。SmartNIC 核心是通过FPGA（现场可编程门阵列）协助 CPU 处理网络负载，并编程网络接口功能。此阶段的智能网卡延续了 TOE 卸载 CPU 负载逻辑，使用“网卡+FPGA”方法扩展网卡算力，实现用户自定义计算，以及硬件卸载能力。

SmartNIC 硬件卸载能力中，典型有 OVS Fastpath 硬件卸载、基于 RoCEv1 和RoCEv2 的 RDMA 网络硬件卸载、融合网络中无损网络能力（PFC、ECN、ETS 等）硬件卸载、存储领域 NVMe-oF 硬件卸载，以及安全传输数据面卸载等。

在云计算虚拟化平台中，SmartNIC 能够提升应用程序和虚拟化性能，实现软件定义网络（SDN）和网络功能虚拟化（NFV）多种优势，将网络虚拟化、负载均衡和其他低级功能从数据中心 CPU 中卸载，为应用提供最大处理能力。此 SmartNIC 还能够提供分布式计算资源，使用户开发软件或提供接入服务，进而加速特定应用程序。

在产业案例上：2013 年，Amazon 的云计算平台 AWS 即研发了 Nitro 产品，将数据中心部分开销，即为虚机提供远程资源、加密解密、安全策略等服务程序，全部放到专用加速器上执行。Nitro 架构采用轻量化 Hypervisor 配合定制化硬件，将虚拟机计算（CPU 和内存）和 I/O（网络和存储）子系统分离开来，通过 PCI总线连接，节省 30% CPU 资源。

阶段三：智能进化，融入通用算力芯片。在数字经济加速渗透的背景下，数据中心越来越成为“业务和流量复杂性的聚集地”，为数据中心减负成为催化智能网卡再度进化的主要因素。新一代产品继承并发展了SmartNIC，通过在其基础上加入 CPU，提供更丰富和灵活的算力卸载、主机侧与网络侧通信传输功能、虚拟网络控制面隔离、测量和检测等功能，来实现网络、存储与安全卸载等能力。

当前，DPU 的特点首先是支持 PCIe Root Complex 模式和 Endpoint 模式，在配置为 PCIe Root Complex 模式时，实现 NVMe 存储控制器与 NVMe SSD 磁盘一起构建存储服务器。

DPU 具有独立计算单元，可通过 ASIC/FPGA/SoC 等技术实现。具备独立计算单元是 DPU 相较于普通网卡的主要特征。DPU 能够完成特定基础设施功能操作，如重组加速、安全加速等，带来显著性能提升。

DPU 上的可编程 ASIC 或 FPGA 单元有可以运行自定义软件的计算层，可为网络流量提供服务，并执行特定网络及数据中心基础设施功能，为外部网络和服务器操作系统之间提供了额外安全层，即将安全保障由 ToR 交换机转移向了 DPU 设备。目前，智能网卡（DPU）有 ASIC、FPGA 和 SoC 三种实现路径。

▲智能网卡不同技术实现示意图

不同技术路径在成本、编程简易性和灵活性方面存在各自利弊。

其中，ASIC 具备高性能、低功耗、低成本等特性，但其在预定义范围内可编程性较低，灵活性一般，限制了其向新应用场景开拓的能力；基于 FPGA 的技术路线具有非常高的灵活性和可编程性，在足够时间和成本预算支持下可以相对有效地支持几乎所有功能，但其价格昂贵、功耗较高、芯片面积较大；对于更复杂、更广泛的现实用例，基于 SoC（如 NVIDIA BlueField DPU）的技术路线提供了更优实施选项，SoC 技术路线具备可编程、高灵活性等特征，是未来 DPU 发展的一个主流方向。

▲DPU 不同技术路线参数对比

NVIDIA BlueField-2 DPU 是 SoC 路线的典型代表。该 DPU 继承了 Mellanox 第一代智能网卡，即网络、存储应用 SoC 可编程芯片，集成了一个基于行业标准、高性能及软件可编程多核 ARM 架构通用 CPU、一个速率高达 200 Gb/s 单端口（或100G/s 双端口）无线带宽或以太网接口，以及灵活、可编程专用硬件加速引擎。

02 全球标杆 NVDIA引燃DPU市场

NVIDIA 通过收购 Mellanox 积极布局智能网卡业务，并在 2020 年 GTC 秋季大会上宣布推出一款新型数据处理器，即BlueField-2 DPU，目前已上市。该处理器由新型 DOCA 架构，即一种全新数据中心 IOC 架构（Infrastructure On a Chip，基础架构级芯片）提供支持，可从CPU 上卸载关键网络、存储和安全任务，突破性的提升相关性能。

在该大会主题演讲中，NVIDIA 创始人兼首席执行官黄仁勋表示：“数据中心已成为新型计算单元。在现代化、安全加速数据中心中，DPU 已成为其重要组成部分。CPU、GPU和 DPU 结合，可构成完全可编程单一 AI 计算单元，提供前所未有的安全性和算力”。此后，NVIDIA 在 GTC 2021 上宣布将升级为集 CPU、GPU 和 DPU 三芯产品为一体厂商，“三类芯片、逐年飞跃、一个架构”。

▲NVIDIA DPU 产品规划路线图

BlueField-3 DPU 预计将实现 10 倍加速计算能力提升。NVIDIA BlueField-3 预计将于 2022 年出样片，是首款以线速处理软件定义网络、存储和网络安全的 400Gb/s DPU，具备 x86 300 个核网络处理能力，将强大计算能力、高速网络和广泛可编程性相结合，为要求苛刻的工作负载提供软件定义的硬件加速解决方案。

BlueField-3 网络部分采用了 ConnectX-7 网络芯片，支持 400G 以太网和 NDR InfiniBand，因此具有出色网络性能。相比上一代产品，它具有 10 倍加速计算能力、16 个 ARM A78 CPU 核，和 4 倍加密速度，BlueField-3 也将是首款支持第五代 PCIe 总线，并提供数据中心时间同步加速的 DPU。

凭借 BlueField-3 DPU 提供的强大数据处理能力，NVIDIA 将网络安全业务应用从数据中心 CPU 基础设施服务中卸载和隔离出来，构建基于“零信任”环境，可对数据中心每个用户进行身份认证，实现实时网络可视化、网络威胁的检测与响应、以及监控、遥测和代理服务，保障了企业从云到核心数据中心，再到边缘安全性，同时在效率和性能上有了更大提升。

▲BlueField-3 DPU 总体架构

NVIDIA DOCA为开发者提供一个完整、开放软件平台。DOCA 是与 BlueField-3 DPU 配套的软件开发包，利用 DOCA，开发者可以在软件定义和硬件加速网络、存储、安全和管理等进行应用开发。

DOCA 提供 BlueField-3 创建、编译和优化应用运行时环境，用于配置、升级和监控整个数据中心数千个 DPU 编排工具，以及各种库、API 和日益增加的各种应用，如深度数据包检测和负载均衡等。此外， DOCA 给程序员提供简单开发接口同时，可向下平滑兼容，支持每一代 DPU 产品。

▲NVIDIA DPU DOCA 架构图

BlueField-4 DPU 将深入嵌入 NVIDIA AI 计算技术，性能有望进一步飞跃提升。

从核心功能来看，DPU 主要是从 CPU 上卸载关键网络、存储、安全任务，以降低 CPU 的运算压力，推动数据中心向“3U”一体转型，从而提升整个数据中心的运行效率，以应对日益旺盛的海量数据处理。

网络卸载：网络通信技术和时间精度进一步加强。BlueField-3 在网络业务中对网络通信技术，如 RDMA、连接跟踪（Connection Tracking）、ASAP2等，进行进一步加强，以及对数据中心和边缘之间时钟同步进一步精确。

其中，RDMA 可以实现直接在内存之间交换数据，且具备卸载 CPU 算力的功能。目前 NVIDIA 全部网卡已全面支持 GPU-Direct RDMA（GDR）技术。该技术可以进一步实现多计算机直接互相访问 GPU 内存的功能。

▲GPU-direct RDMA 技术示意图

存储卸载：消除对本地存储依赖，提升云计算远程存储效率和管理。BlueField-3 可以实现对块存储、文件存储、对象存储或 NVMe 存储仿真，并且可以在数据落盘时对加解密操作进行硬件卸载，此外各种签名操作也都可以分流到 DPU 上。

其弹性块存储可以达到 18M 的 IOP/s 的读写性能，其虚拟化 I/O 加速可以达到 80Mpps 的性能。BlueField SNAP 即基于软件定义的网络加速处理，可以实现云计算对存储解耦以及可组合性存储日益增长需求满足。

BlueField-3 实现了从 IP 层、传输层到 MAC 层 400Gb/s 在线加解密，在使用 RegEx 和 DPI 时，深度包检测速度可达 50Gb/s。

其中 IPSec 协议可以在 IP 层对数据进行加解密，IPSec 速度与网络线速相同，BlueField-3 可以实现 400Gb/s 的 IPSec 加解密。与 CPU 做 IPSec 加解密相比，其速度大大提升。TLS 协议可以在 TCP 层对数据进行安全保障，BlueField-3 对其加解密速度可达 400Gb/s，也能释放 CPU 算力。

产业生态是 IT 新技术和新产品致胜的关键因素，甚至是决定性的因素。

NVIDIA除了在软件层面提供软件开发工具包 DOCA（Data-Center-Infrastructure-On-A-Chip Architecture），帮助开发人员在 DPU 加速数据中心基础设施上构建相对应用程序之外，与其他科技巨头不断深化合作，共享 DPU 市场红利。

在 2020 GTC 大会上，VMware 和 NVIDIA 宣布进行广泛合作，共同提供 AI-Ready Enterprise Platform，以及适用于数据中心、云和边缘计算的新架构，该架构使用 BlueField DPU 来支持现有和新一代应用程序。

AI-Ready Enterprise Platform 的关键组件是 NVIDIA AI Enterprise软件套件，它在 VMware vSphere 上运行，并由 NVIDIA 优化、认证和支持，可帮助全球大型行业的数千位 VMware 客户使用 AI 的强大功能。

NVIDIA BlueField-2 DPU 提供一套丰富网络流量卸载引擎，可满足 5G 和云等高要求市场中不断发展的安全需求。Palo Alto Networks 发挥其在保护企业和移动网络方面的专长，并将其应用于 5G。

两家公司部署了包括虚拟防火墙在内的5G 原生安全倡议。该虚拟防火墙致力于满足 5G 云原生环境严格安全需求，通过规模化、操作简易性和自动化，为客户提供安全保护。

除此外，其他重要合作还包括：Red Hat 在其开放混合云产品组合 RHEL 和OpenShift 中为 DPU 提供支持；Canonical 在 Ubuntu 云平台中支持 BlueField-2DPU 和 DOCA；Check Point：将 BlueField-2 DPU 集成到产品技术中，加速网络安全产品等等。

▲BlueField-2 DPU 智能流量卸载

03 需求放量国产DPU厂商迎良机

“3U”一体（即 CPU、GPU、DPU）重塑数据中心算力架构。数据中心作为 IT 基础设施的重要组成部分，正快速发展，面向云计算商业化应用，对接入带宽、可靠性、灾备、弹性扩展等要求较高。

从未来算力需求来看，异构计算已成为重要发展趋势，高度集成化的片上数据中心的模式（Data Center InfrastructureOn a Chip）有望成为未来数据中心主流，即 CPU、GPU、DPU 共存形式。以NVIDIA 为例，其布局数据中心从核心到边缘（Edge）采用了“3U”一体的统一计算架构。通过 CPU、GPU、DPU 协同互补，可以在数据中心和边缘端达到高性能与高安全性。

CPU：计算生态的底座，主力芯片的基石。CPU（中央处理器）是整个计算设备的大脑，其诞生使得软件和硬件从此解耦，可以实现更高 IPC 和更高频率。自上世纪 90 年代以来，CPU 整体性能提升接近 5 万倍。

同时，基于 CPU，软件也发展出庞大生态，无论是 x86 架构服务器端还是 ARM 架构移动端，都构建起自身丰富的生态系统。CPU 重要应用领域包括 PC 和服务器，每台 PC 通常有一颗 CPU，而每台服务器 CPU 数量不定，通常分为一路、双路、四路及以上服务器；其中，以双路服务器为主。

全球市场方面，2021 年全球服务器出货量达 1353.9 万台，同比增长 9.07%；PC出货量为 3.47 亿台，同比增长 16.27%。中国市场方面，2021 年国内服务器出货量达 375.1 万台，同比增长 9.07%；PC出货量为 5700 万台，同比增长 16.09%。

▲2015-2025E 年中国服务器（x86）出货量情况

GPU，从图形处理到数据处理芯片蜕变。图形处理器（GPU）从图形控制功能发展而来，至今已成为架构复杂度最高的芯片之一，在并行计算、浮点以及矩阵运算方面具有强大性能，是高性能计算最重要的辅助计算单元。

2006 年，NVIDIA 推出并行计算架构 CUDA（Compute Unified Device Architecture），使 GPU 可以处理复杂计算问题，同时开发者可使用 C 语言来编写程序，极大降低了用户基于GPU 并行编程门槛。在此基础上，NVIDIA 还针对不同场景构建了功能强大的开发库和中间件，逐步建立了“GPU+CUDA”的强大算力生态。

根据华经产业研究，2020 年 GPU 全球市场规模为 254.1 亿美元，预计 2027 年将达到 1853.1 亿美元；中国市场 2020 年市场规模为 47.4 亿美元，预计 2027 年达到 345.6 亿美元，GPU 市场维持 30%以上的增速。

▲2020-2027E 年中国 GPU 市场空间情况

DPU，因数据中心而生的“第三颗主力芯片”。数据中心是 DPU 目前最主要的应用场景，预计未来用于数据中心的 DPU 数量将达到和数据中心服务器同等量级。随着 DPU 技术方案更加成熟、数据中心在全球范围内加速落地，以及智能驾驶等诸多应用场景逐渐放量，NVIDIA、Intel 等厂商数据处理类芯片 DPU/IPU 大规模量产，全球 DPU 市场将在未来几年迎来爆发式增长。

2020 年，全球 DPU 市场空间为 30.5 亿美元，至 2025 年，市场空间将有望达到245.3 亿美元，5 年复合增速为 51.73%。

国内市场方面，预计 2023 年，国内数据中心将升至 800G，届时 DPU 性能将升级至 100G 及更高，DPU 将迎来第一轮配置需求。同时，智能驾驶、边缘计算、IoT 等产业的发展也将带来增量市场。2020 年，国内 DPU 市场规模为 3.9 亿元，预计 2025 年，国内市场规模将达到565.9 亿元，5 年复合增速达 170.60%。

▲2020-2025E 年中国 DPU 市场空间情况

DPU 上游涉及如 EDA 设计软件、IP 核、封装测试、代工等环节，下游则主要对应数据中心/云计算、智能驾驶、数据通信、网络安全等领域需求。从产业趋势来看，DPU 下游需求有望持续放量，国内厂商与海外龙头有望在未来同台竞技。

DPU 产业链上游：国产供应链正崛起。DPU 产业链上游主要涉及如 EDA 设计软件、IP 核、封装测试、芯片代工等。目前在上述环节均呈现出国产化供应链崛起的特点，未来有望和海外不断缩小差距。

EDA 软件：目前海外三巨头 Cadence、Synopsys 和 Mentor Graphics 合计占据国内市场份额近 77.7% ，国产厂商在细分领域逐步突破，如在器件建模和电路仿真、集成电路等领域。国产 EDA 的主流供应商中，概伦电子已登陆科创板，华大九天的创业板 IPO 申请也已获得证监会同意。

IP 核：目前 ARM、Synopsys 合计占据全球 IP 核约 60%的市场份额，同时第三名 Cadence 的市场份额为 6%。随着先进工艺升级，IP 核数升级带来的收益边际递减，中国目前已实现在接口 IP 市场的国产化。

封装测试：国内封装业已率先实现国产替代，并逐步向技术壁垒更高、产品附加值更大的先进封装发展。在国家科技重大专项“极大规模集成电路制造装备及成套工艺”支持下，部分企业在高端封装技术上已达到国际先进水平，如在金属凸点技术、倒装芯片技术等领域已十分成熟。

芯片代工：2016 年，中国台湾的台积电成功研发 10nm 工艺，制程节点反超 IDM 的三星与英特尔，并在之后几年内持续进行技术迭代，是国内第一家推出 7nm 与 5nm 工艺的代工企业，稳居行业龙头；中国大陆的中芯国际则实现了 14nm 的技术节点突破，为国内芯片生产制造提供有力保证。

▲DPU 产业链上游核心赛道

DPU 在可预见未来，将主要应用于数据中心/云计算、智能驾驶、数据通信等领域，同时网络安全、信创、国防军工等细分市场渗透率亦有望提升。

▲DPU 产业链下游多元需求

除 NVIDIA 外，英特尔公司在 2015 年收购了Altera，并于 2021 年 6 月发布 IPU 类 DPU 产品。

Marvell 从 2018 年起陆续收购了 Cavium、Avera Semiconductor 和芯片初创公司 Innovium。

Xilinx 于 2019 年4 月宣布收购 Solarflare，并于 2020 年发布 Alveo 系列加速卡产品，后又被AMD 于 2022 年 2 月收购。

Fungible 则专注于 DPU 设计，于 2019 年推出了 F1DPU 产品。

2022 年 4 月，AMD 宣布对 DPU 厂商 Pensando 收购，通过这次并购，AMD 将正式进军 DPU 领域，完成涵盖 CPU、GPU、FPGA 和 DPU 整个云端布局。

▲全球 DPU 芯片主流玩家

2021 年 11 月，腾讯在其数字生态大会上披露其自研的智能网卡芯片“玄灵”，定位于云主机性能加速，结合CVM/BM/容器等场景，将原来运行在主 CPU 上的虚拟化、网络/存储 IO 等功能下移到芯片，实现主 CPU 零占用。

2022 年 6 月，阿里云基于神龙架构推出了全新云计算基础设施体系 CIPU，取代 CPU 成为新一代云计算体系架构核心，CIPU 向下云化管理数据中心硬件，加速计算、存储和网络资源；向上接入飞天云操作系统，将全球上百万台服务器变成一台超级计算机，目前 CIPU 已在阿里云内部有较大规模应用，为双 11、阿里集团业务等内部客户和最新实例提供支撑。

除此之外，国内 DPU 新兴产业亦蓄势待发。如北中网芯、芯启源、云豹智能、星云智联、大禹智芯、中科驭数等纷纷入局。

芯启源推出智能网卡 SmartNIC，2021 年 11 月完成数亿元 Pre-A4 轮融资；云豹智能专注云原生 DPU SoC 芯片，投资方包括红杉、腾讯等；星云智联专注数据中心基础互联通信架构，2021 年 4月成立以来获得三轮数亿融资；大禹智芯智能网卡 Paratus 1.0 进入生产阶段，2021 年 7 月完成数千万元 Pre-A 轮融资；中科驭数自主研发 KPU 架构，2021 年7 月完成数亿元 A 轮融资。

北中网芯（左江科技控股 66.86%）成立于 2020 年，并于 2022 年完成第二轮战略融资，引入润兴锐华、三汇智芯等市场资本，主要研制目标为可编程网络安全芯片，以应对当前快速扩大的数据中心 DPU 市场需求，预计 2022 年下半年流片返回，发力国内 DPU 市场。

▲国内 DPU 新兴厂商情况
来源：兴业证券，原标题：《DPU：第三颗主力芯片，崛起的新物种》，作者：吴鸣远蒋佳霖桂杨；

英伟达在下周的 Hot Chips 34 发布会之前宣布了有关Grace CPU Superchip的新细节，并透露该芯片采用4N工艺制造。英伟达还分享了有关架构、数据结构、性能和效率基准的更多信息。Grace芯片和服务器将在2023年上半年投入市场。
英伟达的Grace CPU是该公司第一款专为数据中心设计的CPU专用Arm芯片，在一块主板上有两个芯片，共144个核心，而Grace Hopper超级芯片则将Hopper GPU和Grace CPU结合在同一块板上。在披露中，英伟达最终正式确认 Grace CPU 使用 TSMC 4N 工艺。台积电在其5nm节点系列中列出了“N4”4nm工艺，将其描述为5nm节点的增强版。英伟达使用该节点的专用变体，称为“4N”，专门针对其GPU和CPU进行了优化。

随着摩尔定律的减弱，这些类型的专用节点变得越来越普遍，随着每个新节点的出现，晶体管的缩小变得越来越困难，成本也越来越高。为了实现英伟达4N等定制工艺节点，芯片设计公司和代工厂携手合作，使用设计技术协同优化（DTCO）为其特定产品输入定制功率、性能和面积（PPA）特性。
英伟达此前曾透露，其 Grace CPU 使用现成的Arm Neoverse内核作为其Grace CPU，但该公司尚未指定使用哪种特定版本。然而，英伟达披露，Grace使用Arm v9内核并支持SVE2，Neoverse N2平台是Arm第一个支持Arm V7和SVE2等扩展的IP。N2 Perseus 平台采用 5nm 设计（N4 属于 TSMC 的 5nm 系列）并支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能（瓦特）和每面积性能进行了优化。Arm 表示，其下一代核心 Poseidon 要到 2024 年才会上市，考虑到 Grace 2023 年初的发布日期，这些核心不太可能成为候选者。
英伟达Grace Hopper CPU 架构
英伟达的新NVDIA calable Coherency Fabric (SCF) 是一种网状互连，与Arm Neoverse核心使用的标准CMN-700相干网状网络非常相似。
英伟达SCF 在各种 Grace 芯片单元（如 CPU 内核、内存和 I/O）之间提供 3.2 TB/s 的双向带宽，更不用说将芯片连接到主板上其他单元（无论是另一个Grace CPU还是Hopper GPU）的NVLink-C2C接口。

该网格支持 72+ 个内核，每个 CPU 有 117MB 的总 L3 缓存。英伟达表示，上面图片中的第一个方框图是“出于说明目的的可能拓扑结构”，其对齐方式与第二个方框图不完全一致。
此图显示了具有8个SCF缓存分区（SCC）的芯片，这些分区看起来是L3缓存片以及8个CPU单元。SCC 和内核以两个一组连接到缓存交换节点 (CSN)，然后 CSN 驻留在 SCF 网状结构上，以提供CPU核心和芯片其余部分的存储器之间的接口。SCF 还通过 Coherent NVLink 支持多达四个插槽的一致性。

英伟达还分享了上图，显示每个Grace CPU支持多达68个PCIe通道和多达4个PCIe 5.0 x16连接。每个x16连接支持高达128 GB/s的双向吞吐量（x16链路可以分成两个x8链路），还有16个双通道LPDDR5X内存控制器（MC）。然而，这张图与第一张图不同——它将 L3 缓存显示为连接到四核 CPU 集群的两个连续块，这比之前的图更有意义，芯片中总共有 72 个内核。但是，我我们在第一张图中没有看到单独的SCF分区或CSN节点。
英伟达官方表示，Scalable Coherency Fabric (SCF) 是其专有设计，但 Arm 允许其合作伙伴通过调整核心数量、缓存大小和使用不同类型的内存（如 DDR5 和 HBM）来定制 CMN-700 网格，以及选择各种接口，如 PCIe 5.0、CXL 和 CCIX。这意味着英伟达有可能为片上结构使用高度定制的 CMN-700 实现。
英伟达Grace Hopper 扩展 GPU 内存
GPU 需要高的内存吞吐量，因此，英伟达将目光转向提高内存吞吐量，不仅是芯片内部，还包括CPU和GPU之间。Grace CPU 有 16 个双通道 LPDDR5X 内存控制器，最多可支持 32 个通道，支持高达 512 GB 的内存和高达 546 GB/s 的吞吐量。英伟达表示，由于容量和成本等多种因素，它选择了 LPDDR5X 而不是 HBM2e。同时，与标准 DDR5 内存相比，LPDDR5X 提供了 53% 的带宽和 1/8 的每 GB 功耗，使其成为更好的选择。
英伟达还推出了扩展 GPU 内存 (EGM)，它允许 NVLink 网络上的任何 Hopper GPU 访问网络上任何 Grace CPU 的 LPDDR5X 内存。
英伟达的目标是提供一个统一的内存池，可以在 CPU 和 GPU 之间共享，从而在简化编程模型的同时提供更高的性能。Grace Hopper CPU+GPU 芯片支持具有共享页表的统一内存，这意味着芯片可以与 CUDA 应用程序共享地址空间和页表，并允许使用系统分配器来分配 GPU 内存。
英伟达NVLink-C2C
CPU 内核是计算引擎，但互连是决定计算未来的战场。移动数据比实际计算数据消耗更多的能量，因此更快、更有效地移动数据，甚至避免数据传输，是一个关键目标。
英伟达的Grace CPU由一块板上的两个 CPU 组成，而 Grace Hopper Superchip 则由同一块板上的一个 Grace CPU 和一个 Hopper GPU 组成，旨在通过专有的NVLink芯片到芯片（C2C）互连最大化单元之间的数据传输，并提供一致性内存，以减少或消除数据传输。

英伟达分享了有关其 NVLink-C2C 互连的新细节，这是一种支持内存一致性的芯片到芯片和芯片到芯片互连，可提供高达 900 GB/s 的吞吐量（是 PCIe 5.0 x16 链路带宽的 7 倍）。该接口使用 NVLink 协议，英伟达使用其 SERDES 和 LINK 设计技术精心设计了该接口，重点关注能源和面积效率。NVLink-C2C 也支持行业标准协议，如 CXL 和 Arm 的 AMBA 相干集线器接口（CHI — Neoverse CMN-700 网格的CHI-key）。它还支持多种类型的连接，从基于PCB的互连到硅中介层和晶圆级实现。
功率效率是所有数据结构的一个关键指标，如今，英伟达共享链路传输的数据每比特消耗1.3微微焦耳（pJ/b）。这是 PCIe 5.0 接口效率的 5 倍，但它是未来将上市的 UCIe 互连（0.5 到 0.25 pJ/b）功率的两倍多。封装类型各不相同，C2C link为英伟达提供了性能和效率的完美结合，以满足其特定的使用情况。
英伟达Grace CPU 基准测试

英伟达的新基准是SpecIntRate 2017基准中单台Grace CPU的370分。这英伟达已经共享了一个多CPU基准，在SPECTINTRATE2017基准中，两个Grace CPU的得分为740。显然，这表明两个芯片的线性缩放改进。
AMD目前的第二代EPYC Milan芯片是数据中心目前的性能领导者，发布的规格结果从382到424片不等，这意味着高端x86芯片仍将保持领先地位。然而，英伟达的解决方案将具有许多其他优势，如功率效率和更GPU友好的设计。
英伟达分享了其内存吞吐量基准，表明Grace CPU在CPU内存吞吐量测试中可以提供约500 GB/s的吞吐量。英伟达还声称，该芯片还可以将高达506Gb/s的组合读/写吞吐量推送到连接的Hopper GPU，并在读吞吐量测试期间将CPU到GPU的带宽计时为429Gb/s，在写入时为407Gb/秒。

Grace Hopper ARM系统准备好了吗？
英伟达还宣布 Grace CPU Superchip 将遵守获得 System Ready 认证的必要要求。以获得系统就绪认证。该认证意味着Arm芯片将与操作系统和软件一起“正常工作”，从而简化部署。Grace 还将支持虚拟化扩展，包括嵌套虚拟化和 S-EL2 支持。英伟达还列出了对以下内容的支持：

nRAS v1.1 通用中断控制器 (GIC) v4.1
n内存分区和监控 (MPAM)
n系统内存管理单元 (SMMU) v3.1
nArm 服务器基础系统架构 (SBSA) 可实现符合标准的硬件和软件接口

此外，为了在基于 Grace CPU 的系统上启用标准引导流程，Grace CPU被设计为支持Arm服务器基本引导要求（SBBR）。
对于缓存和带宽分区以及带宽监控，Grace CPU还支持Arm内存分区和监控（MPAM）。Grace CPU 还包括 Arm 性能监控单元，允许对 CPU 内核以及片上系统 (SoC) 架构中的其他子系统进行性能监控。这使得标准工具（例如 Linux perf）能够用于性能调查。英伟达的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初发布，其中 Hopper 变体适用于 AI 训练、推理和 HPC，而双 CPU Grace 系统则专为 HPC 和云计算工作负载而设计。
想了解更多半导体产业前沿洞见、技术速递、趋势解析，欢迎关注微信公众号：半导体产业纵横（ID：ICViews）。

别瞎比，单纯看浮点运算，n家的gpu找就摔家的cpu好几条马路了。cpu强在通用性上，专用芯片/处理单元像dpu npu 比单项当然有优势。

老黄这么虚空对比，看着很厉害，实际感觉底气不足。老黄选的Baseline实在是太低了。144C的Grace 对比2S Icelake 8360Y（36T72T，共计72C144T），在拿出来的宣传项目里也就2倍性能和2.3倍能耗比（含内存）….

Intel 10nm Icelake这一代还在Intel的10nm坑上…这种核心多了一倍的情况下，才有2.3倍能耗比真不咋地…
Icelake因为工艺垃圾，只要比的不是AVX之类，那么简直完美对比对象。Apple M1系列对准了Icelake U暴打，AMD/Nvidia对准Icelake SP暴打..
反正Grace Superchip目测这个刷不过AMD的Genoa…. Intel的Sapphire Rapids核心不够多，多路下性能不用担心，但是能耗比不好说。

		自动登录	找回密码
密码			立即注册

英伟达称 Arm Grace CPU 超级芯片比英特尔 Ice Lake 快 2 ...

相关问题更多>

最新回答