开启辅助访问
 找回密码
 立即注册

如何看英伟达发布Orin系统芯片?

447229829 回答数5 浏览数1795
如何看英伟达发布Orin系统芯片?
wolf12 | 来自北京
已购入
用Deepseek满血版问问看
回复
使用道具 举报
abab1133 | 未知
本文为英伟达全面分析的第七篇文章,关注英伟达在今年会大规模交付的Orin系统级芯片。“Orin”是亚特兰蒂斯神话第一任统治者,海王Altan的儿子。Orin一经发布,便成为众多车企争抢装车的对象。
本文重点探讨Orin的硬件和软件架构,包括新一代的GPU、CPU、深度学习加速器,以及基于Orin的软件栈。


1. Orin概览

英伟达2019年推出了DRIVE AGX Orin平台,最高算力(INT8)达到2000TOPS,是一个既覆盖从L2到L5自动驾驶全场景,也包含可视化、数字仪表、车载信息娱乐及交互的高性能AI平台,且在硬软件上与上一代Xavier完全兼容,下图为基于单Orin和双Orin从L2到L5自动驾驶的系统方案。


DRIVE AGX Orin平台中,内置了Orin SoC芯片,下图为基于Jetson AGX Orin机器人计算平台,供参考。


2. Orin的系统架构

Orin SoC采用7纳米工艺,由Ampere架构的GPU,ARM Hercules CPU,第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器、宽动态范围的ISP组成,同时引入了车规级的安全岛Safety Island设计,下图为Orin SoC的系统架构。


Orin支持204GB/s的内存带宽和最高64GB的DRAM,高速I/O接口与上一代Xavier SoC的接口兼容,可实现275TOPS的INT8算力,是Xavier的7倍,功耗55W。
3. Orin的硬件架构

3.1 Ampere GPU
Orin采用了新一代的Ampere架构GPU,由2个GPC(Graphics Processing Clusters,图形处理簇)组成。
每个GPC又包含4个TPC(Texture Processing Clusters, 纹理处理簇),每个TPC由2个SM(Streaming Multiprocesor,流处理器)组成,下图为Orin的GPU架构。


每个SM有192KB的L1缓存和4MB的L2缓存,包含128个CUDA Core和4个Tensor Core。
因此Orin总计2048个CUDA Core和64个Tensor Core,INT8稀疏算力为170 TOPS(Tensor Core提供),INT8稠密算力为54TOPS,FP32算力为5.3TFLOP(由Cuda Core提供)。
与上一代Volta架构的GPU相比,Tensor Core引入了对稀疏性的支持, 稀疏性Sparsity是一种细粒度的计算结构,可以使吞吐量翻倍并减少内存使用量。
3.2 第三代张量核稀疏化技术
Ampere架构中第三代Tensor Core是亮点,首次引入了细粒度结构化稀疏性技术(Fine-grained structured sparsity ,稀疏性),也是支撑英伟达对外宣传“AI算力标杆”的关键控制点。


稀疏化技术主要分为两个部分:
一是对权重网络先进行密集训练(Dense trained weights),再将网络权重修剪(pruning)为2:4的稀疏矩阵,稀疏矩阵中每个4个元素中有2个非零值,最后再对非零权重进行微调(fine-tune),通过权重网络压缩,使得数据占用空间和带宽减少为原来的一半;
二是在Tensor Core中加入选择电路,称为稀疏的tensor core),根据权重的索引过滤掉0的位置,让weights不是0的部分和输入的Tensor对应的部分做内积,使矩阵乘法所需计算量大大减少,即通过跳零(skipping the zeros)将数学计算的吞吐量加倍。
3.3 第二代DLA
Orin上推出了第二代深度学习加速器DLA,相比于第一代,主要有两个变化:
第一是增加了本地缓冲,以提高效率并减少DRAM带宽;第二是引入了结构化稀疏功能(structured sparsity),增加了深度卷积处理器(depth wise convolution processor)和硬件调度器(hardware scheduler),下图为第二代DLA架构。


总体使得DLA的INT8稀疏算力为105TOPS,INT8稠密算力为11.4TOPS,而Xavier中的第一代DLA为5TOPS。
TensorRT可以在DLA上INT8或FP16运行各种网络,并支持卷积、反卷积、全连接、激活、池化、batch归一化(batch normalization)等各种层。
3.4 Arm A78 CPU
Orin系统架构中,CPU从之前自研的Carmel架构回到了到5纳米工艺的ARM Cortex-A78上,下图为CPU架构。


Orin多达12个CPU内核,每个内核包含了64KB的L1指令缓存和64KB的L1数据缓存,以及256KB的L2缓存。
每4个CPU内核组成一个CPU簇,共同使用一个2MB的L3缓存,支持的最大CPU频率达到了2.2GHz。
相比于上一代Xavier的8核Carmel CPU,Orin的12核A78 CPU性能提升1.9倍。
3.5 内存和通讯
Orin最高支持64GB的256位LPDDR5和64GB的eMMC。
DRAM支持3200MHz的最大时钟速度,每个引脚6400Gbps,支持204.8GB/s的内存带宽,是Xavier内存带宽 memory bandwidth 的1.4倍、存储storage的2倍。
下图显示了Orin各组件中,通过内存控制器结构(Fabric)和DRAM如何通讯和数据交互。


3.6 视频编解码器
Orin包含一个多标准视频编码器 (ENC)、一个多标准视频解码器 (DEC) 和JPEG处理块 (JPEG)。
ENC和DEC支持完整硬件加速的编解码标准,包括H.265、H.264 、AV1等;JPEG用于JPEG静止图像的解压缩计算、图像缩放、解码(YUV420、YUV422H/V、YUV444、YUV400)和色彩空间转换(RGB到YUV)等功能。
3.7 第二代视觉加速器PVA和VIC
Orin中对PVA进行了升级,包括双7路VLIW(超长指令字)矢量处理单元、双DMA和Cortex-R5,支持计算机视觉中过滤、变形、图像金字塔、特征检测和FFT等功能。


Orin还包含一个Gen 4.2视频成像合成器 (Video Imaging Compositor,VIC) 2D 引擎,支持镜头畸变校正和增强、时间降噪、视频清晰度增强、像素处理(色彩空间转换、缩放、混合和合成)等图像处理功能。
为了调用Orin SoC上的多个硬件组件(PVA、VIC、CPU、GPU、 ENC等),英伟达开发了视觉编程接口 ( Vision Programming Interface,VPI)。作为一个软件库,VPI附带了多种图像处理算法(如框过滤、卷积、图像重缩放和重映射)和计算机视觉算法(如哈里斯角检测、KLT 特征跟踪器、光流、背景减法等)。
3.8 I/O接口
Orin包含大量的高速 I/O,包括了22通道PCIe Gen4、以太网接口(千兆、10千兆)、显示端口、16通道MIPI CSI-2、USB3.2等。


Orin中带有电源管理集成电路 (Power Management Integrated Circuit,PMIC)、稳压器和电源树,支持15W、30W 、50W、60W功率模式。
4. Orin的软件栈

Orin的软件栈是基于软件开发工具包SDK(Software Development Kit)来提供支撑的。
主要是板级支持包 (BSP),包括了引导程序Bootloader、Linux内核、驱动程序Driver、工具链Tool chain和基于Ubuntu的参考文件系统,BSP也支持各种安全功能(安全启动、可信执行环境、磁盘和内存加密等)。
在BSP之上,有多个用于加速应用程序的用户级库,包括深度学习加速库(CUDA、CuDNN、Tensor RT),加速计算库(cuBLAS、cuFTT),计算机视觉和图像处理库(VPI),多媒体和相机库(libArgus 和 v4l2)。
TensorRT是用于深度学习推理的运行时库( Runtime library)和优化器( Optimizer ),可提供更低的延迟(Latency)和更高的吞吐量( Throughput ), 即通过模型量化、融合内核节点( Fusing nodes in a kernel)和选择最佳数据层和算法(Best data layers and algorithms )来优化GPU内存和带宽(Memory and bandwidth)的使用。
cuDNN( CUDA Deep Neural Network Library,深度神经网络库),是英伟达专门为深度神经网络所开发出来的GPU加速库,针对卷积、池化等常见操作做了非常多的底层优化,比一般的GPU程序要快很多,大多数主流深度学习框架都支持 cuDNN。
此外,Orin软件栈上也支持特殊场景的SDK,包括用于智能视频分析应用程序的DeepStream、用于机器人应用程序的Isaac和用于自然语言处理应用程序的Riva,以支撑更多生态应用发展。
下图是基于Jetson AGX Orin机器人计算平台供参考。


对于边缘部署场景,推出了预训练模型 (PTM) ,已经采用了数百万张图像进行了预训练,模型库中包括了人车检测、自然语言处理、姿势估计、车牌检测、人脸检测等模型,可以实现开箱即用;
此外配合TAO工具包( TAO toolkit ),使客户能够使用自己的数据集进行训练、微调和优化这些预训练模型,形成快速部署。
针对已经部署在边缘端的模型,借助云,通过容器和容器编排技术实现定期更新,包括具有Docker集成的 NVIDIA Container Runtime,以简化大规模 AI 模型的部署。
5. 地表最强,车企疯抢

目前Orin的订单火爆,已经有越来越多的车企和初创公司宣布搭载Orin平台。
上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。
很多车企在拿到Orin样板都迫不及待地官宣,试图对外展示是Orin的首装,Orin的交付,可以看作是今年智能汽车里程碑事件。


6. 汽车人参考小结

燃油车向电动车和智能车过渡,高续航成为标配,拼续航为代表的电动化基本进入了下半场;到智能汽车,业界很自然共识是从“马力”到“算力”,因此从拼续航到了拼马力时代。
英伟达Orin卖点就是算力,踩得非常准,就是要用自身优势掀起算力的军备竞赛。
车企智能化还在竞争中,特别是在高端车型上,急需要有一个卖点和标签,而市面上可选的芯片只有英伟达一家,因此就出现了车企疯抢的状态。
汽车人参考认为,一方面英伟达算力是稀疏的,算力利用率、性价比需要更详细分析,车企对其算力的认知会越来越清晰;另外一方面,在主流车型上,芯片的算力也会逐步向电池续航一样开始收敛,最终会达到一个平衡,回归比性价比的真实状态。
本文为汽车人参考第386篇原创文章,如果您觉得文章不错,“推荐和关注”是对我最大的支持。
回复
使用道具 举报
haibin006 | 来自辽宁
NVIDIA发布的Xavier已经在市场上打拼了好几年了,同行竞争者一直在追赶、力图超越,Xavier也在应用中出现了一些问题,NVIDIA也该把Orin这个新武器揭开面纱了。虽然去年的GTC上有一些信息发不出来,但是还是犹抱琵琶半遮面的感觉,对于几年的GTC,关于Orin还是有很多的期待的。
一、引言
随着智能网联汽车大会的召开,智能网联汽车技术路线图2.0发布,智能汽车技术的发展方向更趋清晰,“三横两纵”中车辆关键技术作为智能汽车功能实现的承载基础,智能计算平台的开发尤为重要。
智能计算平台核心的就是AI芯片,目前接触NVIDIA Xavier较多,并且团队内基于Xavier+TC297的架构设计了几款域控制器投放市场。同时由于项目需要,对于Mobieye EyeQ4、地平线J2等也不陌生。团队也针对未来智能计算平台的发展方向开展过多次讨论,FPGA是最接近量产的方案,但是基于Xavier、J2等AI芯片的开发方案却是最容易产品化的选择。智能计算平台核心的就是AI芯片,目前接触NVIDIA Xavier较多,不过目前Xavier等芯片也有很多的问题,NVIDIA在2019年GTC上发布的Orin芯片作为Xavier的换代品,要到2022年才可以量产,希望今年12月份的NVIDIA 2020 GTC可以带来更多关于Orin的信息,本文通过简单对比Xavier和Orin,为后续智能计算平台的产品设计提供一些参考。更希望Xavier目前的一些问题在Orin上可以得到解决,如车规级、功能安全、温度范围、功耗和散热等等。
二、Xavier-世界上最强大的SoC
Xavier被NVIDIA称作为“世界上最强大的SoC(片上系统)”,作为NVIDIA AI芯片当打选手,Xavier具有高达 32 TOPS的峰值计算能力和 750 Gbps 的高速 I/O 性能。可处理来自车辆雷达、摄像头、激光雷达和超声波系统的L5级自主驾驶数据。
Xavier SoC基于台积电12nm工艺,集成90亿颗晶体管,芯片面积350平方毫米,CPU采用NVIDIA自研8核ARM64架构(代号Carmel),GPU采用512颗CUDA的Volta,支持FP32/FP16/INT8,20W功耗下单精度浮点性能1.3TFLOPS,Tensor核心性能20TOPs,解锁到30W后可达30TOPs。
Xavier 内有六种不同的处理器:Volta TensorCore GPU,八核ARM64 CPU,双NVDLA 深度学习加速器,图像处理器,视觉处理器和视频处理器。这些处理器使其能够同时、且实时地处理数十种算法,以用于传感器处理、测距、定位和绘图、视觉和感知以及路径规划。


三、Orin-NVIDIA的核弹级AI芯片
Orin是NVIDIA在GTC China 2019大会发布的,号称核弹产品,采用全新的NVIDIA GPU及12核ARM CPU,单片运算能力可达到每秒200TOPS,性能是Xavier的7倍。


Orin(DRIVE AGX Orin)——NVIDIA定位是用于自动驾驶和机器人的高度先进的软件定义平台。内置的全新Orin系统级芯片,由170亿个晶体管组成,集成了英伟达新一代 GPU架构和12核的Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器。根据黄教主厨房GTC 2020发布的消息,Orin有可能会用到安培架构。
Orin 可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了 ISO 26262 ASIL-D 等系统安全标准。根据NVIDIA官方数据,L5级别的全自动驾驶可以使用2路DRIVE AGX Orin+2组GPU的方案,性能可达2000TFLOPS。


DRIVE AGX Orin 作为一个软件定义的智能计算平台,能够覆盖从 L2 级到 L5 级完全自动驾驶汽车开发的兼容架构平台,有助于 OEM 厂商开发大型复杂的软件产品。Orin 和 Xavier 均可通过开放的 CUDA、TensorRT API 及各类库进行编程,方便开发者跨平台移植和应用。
另外,Orin芯片中的CPU部分为ARM架构,据分析NVIDIA之所以选择ARM平台是与PCI Express有一定关系。PCI Express是大家都会遵守的行业标准,PCI Express不仅可以为ARM提供有力支持,而且通过PCI Express可以方便的连通ARM处理器,便于开发者实现软件部署。
再就是ARM平台拥有非常出色的工具和生态,通过ARM可以非常轻松的实现CUDA编译。最近有报到NVIDIA在积极收购ARM,如果这一收购能够达成,那么AI芯片领域GPU+ARM架构CPU的路线将会继续引领航行业发展。
四、基于Xavier的智能计算平台设计
优控智行设计的一款自动驾驶域控制器ADCU,基于NVIDIA Jetson Xavier和Infineon TC297,端口配置资源丰富,支持Camera、Radar、Lidar、IMU等传感器接入,并支持车载以太网通讯。Xavier用于环境感知、图像融合、路径规划等,TC297用于安全监控、冗余控制、网关通讯及整车控制,符合行业最先进的智能网联汽车电气架构设计理念,集成多个电控单元功能,降低设计风险,功能安全面向ISO26262标准中的最高级ASIL-D。


目前基于NVIDIA Xavier的智能计算平台均采用类似架构设计方案,有部分企业的产品设计有2个或多个Xavier芯片,也是通过Ethernet Switch来进行级联和通讯,而Infineon的TC297/397成为功能安全MCU的不二之选。
五、Orin的市场潜力
根据目前自动驾驶行业算法和数据方面的积累,Drive Xavier 30TOPS(万亿次计算每秒)的自动驾驶算力应付L2级别的全速域ACC自适应巡航、车道居中、车道偏离预警等等都是足够的。但是对于L3及以上自动驾驶系统而言,Xavier的算力已经捉襟见肘,比如特斯拉的NOA(Navigate on Autopilot)、蔚来NOP(Navigate on Pilot)、小鹏NGP(Navigation Guided Pilot)等高速自主导航驾驶功能(仍需驾驶员握紧方向盘),对系统算力要求已经远超30Tops。
因此,实现L4 以及L5完全自动驾驶,智能计算平台需要更多的算力支撑,而Orin的推出水到渠成。


和Xavier相比,Orin的算力提升7倍,从30TOPS提升到了200TOPS。自半导体工艺进步、芯片架构的革新、以及CPU从ARM Cortex A57到A78带来的性能飞跃,让7倍的性能提升成为现实。
目前根据行业反馈来看,L3级以上自动驾驶车型,AI芯片基本都来自Mobileye和英伟达,以及自研FSD芯片的特斯拉。号称汽车界的苹果的特斯拉自研FSD芯片单颗算力也才72TOPS,Autopilot硬件3.0用两块芯片也就是144TOPS,目前特斯拉发布的AP3.0就已经支持高速自主导航驾驶也就是NOA。200TOPS算力到什么程度可想而知。
Orin和Xavier对比功耗方面也有明显改善,Orin在性能提升7倍的前提下,功耗仅为45W左右,功耗提高了1.5倍,在车载电子领域对功耗极其敏感的情况下,对于结构工程师而言,不用考虑向特斯拉一样的水冷系统而烦恼了。
除此之外,Orin也延续了英伟达Drive系列的传统,针对L5全自动驾驶提供多芯片方案。最强版本采用两个Orin+两个7纳米A100 GPU,算力达到了疯狂的2000TOPS,堪比性能怪兽,比上一代Drive Pegasus的320TOPS也提升到超过6倍。
针对目前主流的AI芯片供应商而言,小鹏P7搭载英伟达Xavier,威马的L3自动驾驶方案也是来自英伟达的芯片,蔚来和广汽 Aion LX都是采用Mobileye的芯片。而理想汽车在9月份已经和NVIDIA达成合作,在新车型上搭载Orin芯片。
虽然目前看来Mobileye市场份额占据绝对优势,但是EyeQ系列芯片算力的瓶颈始终无法突破。而Orin的200TOPS和45W的功耗以及ASIL-D及功能安全,称为核弹绝不过分,期待今年的GTC中国上可以有更多关于自动驾驶相关的介绍和信息发布。
回复
使用道具 举报
kteong | 未知
Orin芯片是在去年12月的英伟达GTC计算大会上发布的,目标是2022年「上车」。
从2019年底开始,乘用车级别的自动驾驶开始从L2向L3进发。这一进程的最大特点,就是L3级自动驾驶允许驾驶员在特定场景下(比如高速公路)双手可以脱离方向盘,完全交由车辆自己操作。L3时代的到来,意味着汽车承担的道路识别任务更重,从而供应链需要给出算力更高的解决方案。
背景说完,Orin相比英伟达目前装车主力,针对L2级别辅助驾驶推出的Drive Xavier,提升极其巨大。
Drive Xavier可以提供30TOPS(万亿次计算每秒)的自动驾驶算力,应付L2级别的全速域ACC自适应巡航、车道居中、车道偏离预警等等都是足够的。
但到了L3时代,像是特斯拉的NOA、蔚来NOP、小鹏NGP这种类L3功能(高速自主导航驾驶,但仍需驾驶员握紧方向盘),对系统算力要求已经很高。
其中小鹏NGP硬件用的就是英伟达Xavier,30TOPS的算力已经是业界顶尖水准,但如果想要继续进化,达到L3乃至更高水平,我们需要更多的TOPS。
于是Orin应运而生。


和Xavier相比,Orin的算力提升到接近7倍,从30TOPS提升到了200TOPS。虽然恐怖的性能提升部分来自半导体工艺进步,但一代7倍的惊人幅度,也得归功于英伟达对芯片架构的革新,还有CPU部分从ARM Cortex A57到A78带来的性能飞跃。
200TOPS是什么程度?马斯克号称能实现L5自动驾驶的特斯拉FSD芯片单颗算力也才72TOPS,Autopilot硬件3.0用两块芯片也「才」144TOPS。
另一个值得一说的点是功耗。Xavier的功耗大概是30W,Orin在性能提升极其惊人的前提下,功耗仅为45W左右。对功耗极其敏感的车载电子领域,这也是另一个好消息,毕竟不是每个企业都激进如特斯拉,敢为车载芯片定制水冷。
除了L3/L4级别的乘用车,Orin也延续了英伟达Drive系列的传统,会有针对L5全自动驾驶的多芯片方案。最强的版本用了两个Orin+两个7纳米A100 GPU,算力达到了疯狂的2000TOPS,比上一代Drive Pegasus的320TOPS也提升到超过6倍。


说完芯片本身,英伟达作为如今事实上的汽车行业T1供应商,新产品出炉自然也迎来的车企的热捧。
比如今年6月,梅赛德斯-奔驰就和英伟达搞了个发布会,戴姆勒集团CEO康林松和黄仁勋同时站台,宣告奔驰和英伟达将共同研发自动驾驶技术,Orin也将毫无疑问地搭载在奔驰未来的智能汽车上。
对于自动驾驶领域来说,最近几年英伟达其实挺像高通的。虽然有一个主要对手(苹果/特斯拉),但对手的产品只供应自家产品,根本不会对英伟达造成影响。至于其他竞品,不是性能太弱(瑞萨/德州仪器),就是迟迟出不来(Mobileye)。
所以L3时代,英伟达大概率还会是上游中更强大的存在,Orin目前傲视群雄的性能就是依据。
回复
使用道具 举报
IuQzBfIj | 未知
NVIDIA Orin 系统级芯片由 170 亿个晶体管组成,凝聚 NVIDIA 团队为期四年的努力。Orin 系统级芯片集成了 NVIDIA 新一代 GPU 架构Ampere和 Arm Hercules CPU 内核以及全新深度学习加速器(DLA)和计算机视觉加速器(PVA),每秒可运行200万亿次计算,几乎是 NVIDIA 上一代 Xavier 系统级芯片性能的 7 倍。在性能大幅提升的同时,进一步优化了能耗比。
Orin 可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了 ISO 26262 ASIL-D 等系统安全标准。
NVIDIA DRIVE AGX Orin™内置Orin系统级芯片,是用于自动驾驶和机器人的高度先进的软件定义平台。DRIVE AGX Orin 能够赋力从 L2 级到 L5 级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软件产品系列。由于 Orin 和 Xavier 均可通过开放的 CUDA、TensorRT API、NvMedia,Driveworks及各类库进行编程,因此开发者能够快速从目前的Xavier平台到Orin平台快速移植AV算法,真正做到在一次性开发后,跨多代的产品使用。
NVIDIA DRIVE AGX Orin 系列将包含一系列基于单一架构的配置,并将于 2022 年开始投产。
今年,根据客户的要求,全新DRIVE AGX系列首先推出了一款新型Orin SoC。这款产品的功率仅为5瓦,但性能却可达到10 TOPS,也代表着NVIDIA正进一步向L2级自动驾驶市场进军。此外,在DRIVE AGX产品系列向入门级自动驾驶平台拓展的同时,NVIDIA Ampere架构也在进一步提升DRIVE平台的计算性能,赋力下一代DRIVE Pegasus Robotaxi自动驾驶平台。该平台凭借两个Orin SoC和两块NVIDIA Ampere GPU,可实现2000 TOPS的性能,因此能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。该架构为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃,将DRIVE系统的性能提高了6倍。
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影