SparseDet: Towards End-to-End 3D Object Detection(VISAPP)
摘要:在本文中,我们提出了用于从点云进行端到端 3D 目标检测的 SparseDet。现有的 3D 对象检测工作依赖于 3D 或 2D 网格中所有位置上的密集目标候选,遵循 2D 图像中目标检测的主流方法。然而,这种密集的范式需要数据方面的专业知识来填补标签和检测之间的差距。作为一种新的检测范式,SparseDet 维护一组固定的可学习提议来表示潜在候选者,并通过堆叠变压器直接对 3D 对象进行分类和定位。我们相信这种端到端的 SparseDet 范式将激发对 3D 目标检测稀疏性的新思考。
点评:针对3D目标检测的网络,SparseDet不需进行冗余去除和NMS,并且运行效率高。
Unifying Voxel-based Representation with Transformer for 3D Object Detection
摘要:在这项工作中,我们提出了一台用于多模态 3D 目标检测的统一框架,称为 UVTR。所提出的方法旨在统一体素空间中的多模态表示,以实现准确和鲁棒的单模态或跨模态 3D 检测。为此,首先设计模态特定空间来表示体素特征空间中的不同输入。与以前的工作不同,我们的方法在没有高度压缩的情况下保留了体素空间,以减轻语义歧义并实现空间交互。受益于统一的方式,然后提出了跨模态交互以充分利用来自不同传感器的固有属性,包括知识转移和模态融合。通过这种方式,点云中的几何感知表达式和图像中的上下文丰富的特征被很好地利用,以获得更好的性能和鲁棒性。transformer解码器用于有效地从具有可学习位置的统一空间中采样特征,这有助于对象级交互。UVTR 提出了在统一框架中表示不同模式的早期尝试。它超越了之前在单模态和多模态输入方面的工作,并在 nuScenes 测试集中取得了领先的性能,LiDAR、相机和多模态输入的 NDS 分别为 69.7%、55.1% 和 71.1%。代码可在 https://github.com/dvlab-research/UVTR 获得。
点评:将transformer用在3D目标检测上的方法,该方法想要统一体素空间的多模态表示。代码已开源。
Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving(CVPR 2022)
摘要:虽然单独利用单目 3D 对象检测和 2D 多对象跟踪可以直接以逐帧方式应用于序列图像,但独立跟踪器切断了从 3D 检测器到跟踪的不确定性传输,从而无法将跟踪误差差返回到 3D 检测器。在这项工作中,我们建议以端到端的方式仅从单目视频中联合训练 3D 检测和 3D 跟踪。关键组件是一台新颖的时空信息流模块,它聚合几何和外观特征,以预测当前和过去帧中所有对象的稳健相似性分数。具体来说,我们利用了transformer的注意力机制,其中self-attention聚合了特定帧中的空间信息,而cross-attention利用了序列帧时域中所有对象的关系和亲和力。然后监督亲和力以估计轨迹并引导相应 3D 对象之间的信息流。此外,我们提出了一种时间一致性损失,它明确地将 3D 目标运动建模纳入学习,使 3D 轨迹在世界坐标系中平滑。Time3D 在 nuScenes 3D 跟踪基准上实现了 21.4% AMOTA、13.6% AMOTP,超过了所有已发布的竞争对手,运行速度为 38 FPS,而 Time3D 在 nuScenes 3D 检测基准上实现了 31.2% mAP、39.4% NDS。
点评:提出了一台基于transformer的模块,可以预测当前和过去帧中所有目标的鲁棒相似性。还提出了一台损失函数。
Towards Efficient 3D Object Detection with Knowledge Distillation
摘要:尽管在 3D 对象检测方面取得了长足的进步,但高级 3D 检测器通常会承受大量计算开销。为此,我们探索知识蒸馏 (KD) 在开发高效 3D 对象检测器方面的潜力,重点关注流行的基于柱和体素的检测器。在没有完善的教师-学生对的情况下,我们首先从模型压缩和输入分辨率降低的角度研究如何获得在准确性和效率之间取得良好折衷的学生模型。然后,我们建立了一台基准来评估在 2D 领域开发的现有 KD 方法,用于在六个结构良好的教师-学生对上进行 3D 对象检测。此外,我们提出了一种改进的 KD 管道,其中包含增强的 logit KD 方法,该方法仅在教师分类响应确定的几个关键位置上执行 KD,以及教师指导的学生模型初始化,以便通过权重继承将教师模型的特征提取能力传递给学生.最后,我们在 Waymo 数据集上进行了广泛的实验。我们表现最好的模型达到了 65.75% 的 LEVEL 2 mAPH,超过了它的教师模型,并且只需要教师模型 44% 的flops。我们最高效的模型在 NVIDIA A100 上运行 51 FPS,比 PointPillar 快 2.2 倍,精度更高。
点评:把知识蒸馏用到3D目标检测上来了,这又是一条路子。选了几个好的教师-学生模型测试了一下,看着效果还不错。
Continual Object Detection: A review of definitions, strategies, and challenges
摘要:持续学习领域主要关注学习持续性任务而不损失先前学习的性能的能力。它的重点主要是增量分类任务。我们认为,连续目标检测的研究由于其在机器人和自动驾驶汽车中的广泛应用而值得更多关注。考虑到未知的类实例不定时出现的情况,这个类但可能作为要学习的新类出目前后续任务中,从而导致缺少注释并与背景标签发生冲突,这种情况比传统分类更复杂。在这篇综述中,我们分析了当前为解决类增量目标检测问题而提出的策略。我们的主要贡献是:(1)对为传统增量对象检测场景提出解决方案的方法进行简短而系统的回顾;(2) 使用新指标对现有方法进行综合评估,以标准方式量化每种技术的稳定性和可塑性;(3) 对持续目标检测当前趋势的概述和未来可能研究方向的讨论。
点评:目标检测领域的持续学习也是一台方向,这篇文章相当于对这个方向的现状总结。主要是分析了目标检测中增加类别的策略。
Voxel Field Fusion for 3D Object Detection(CVPR2022)
摘要:在这项工作中,我们提出了一台概念上简单但有效的跨模态 3D 对象检测框架,称为体素场融合。所提出的方法旨在通过将增强图像特征表示和融合为体素场中的射线来保持跨模态一致性。为此,可学习采样器首先设计用于从图像平面采样以点对射线方式家用投影到体素网格的重要特征,从而保持特征表示与空间上下文的一致性。此外,进行射线融合以将特征与构建的体素场中的补充上下文融合。我们进一步开发了混合增强器来对齐特征变体的转换,从而弥合了数据增强中的模态差距。所提出的框架被证明可以在各种基准测试中实现一致的收益,并且优于以前在 KITTI 和 nuScenes 数据集上基于融合的方法。代码可在 https://github.com/dvlab-research/VFF 获得。
点评:提出了一台跨模态3D目标检测的框架,主要是为了保持跨模态的特征一致性。代码已开源。 |