开启辅助访问
 找回密码
 立即注册

【6月9日】十篇(将)开源论文代码分享

失敗之四 回答数0 浏览数528
【6月8日】十篇(将)开源论文代码分享
CVPR 2022论文收录已更新至6月9日。
#目标检测#
Learning Ego 3D Representation as Ray Tracing
复旦大学&萨里大学&诺亚方舟实验室

自驾游感知模型旨在从多个摄像头中提取三维语义表征,并将其共同纳入自我汽车的鸟瞰图(BEV)坐标框架,以便为下游规划者提供依据。现有的感知方法通常依赖于容易出错的整个场景的深度估计或学习没有目标几何结构的稀疏虚拟三维表征,这两种方法在性能和/或能力上都是有限的。
文中提出一台新的端到端架构,用于从任意数量的无约束相机视图中学习自我的三维表示。受光线追踪原理的启发,设计一台由 "imaginary eyes "组成的偏振网格作为可学习的自我三维表征,并将学习过程与自适应注意机制和三维到二维的家用投影结合起来。重要的是,这种表述允许从二维图像中提取丰富的三维表征,而不需要任何深度监督,并且内置的几何结构与BEV一致。
尽管它的简单性和多功能性,在标准BEV视觉任务(例如,基于摄像头的3D目标检测和BEV分割)上的广泛实验表明,该模型明显优于所有最先进的替代方案,多任务学习在计算效率上有额外优势。

将开源:https://github.com/fudan-zvg/Ego3RT
论文:https://arxiv.org/abs/2206.04042

#域泛化#
Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
南洋理工大学&Mila-Quebec AI Institute

域泛化(DG)旨在学习分布变化下的可泛化模型,以避免冗余地过度拟合大量训练数据。以前的工作采用复杂的损失设计和梯度约束,尚未在大规模基准上取得经验上的成功。在这项工作中,通过利用分布式处理跨域的预测特征的多个方面,揭示了 mixture-of-experts(MoE)模型在DG上的泛化能力。为此,作者提出 Sparse Fusion Mixture-of-Experts (SF-MoE),它将稀疏性和融合机制纳入MoE框架,以保持模型的稀疏性和预测性。SF-MoE有两个专用模块:稀疏块和融合块,分别对物体的不同学习信号进行分离和聚合。
广泛的实验证明,SF-MoE 是一台在大规模基准上的域泛化的学习者。在5个大规模的DG数据集(如DomainNet)上,它比最先进的同类产品高出2%以上,而计算成本相同甚至更低。从分布式表征的角度进一步揭示了SF-MoE的内部机制(例如,视觉属性)。希望这个框架能够促进未来的研究,将可通用的物体识别推向现实世界。

已开源:https://github.com/Luodian/SF-MoE-DG
论文:https://arxiv.org/abs/2206.04046

#视频生成#
Patch-based Object-centric Transformers for Efficient Video Generation
伯克利&Panasonic

本篇文章中,作者提出基于 Patch 的以 Object 为中心的 Video Transformer (POVT),这是一台新的基于区域的视频生成架构,利用以 Object 为中心的信息来有效地模拟视频中的时间动态变化。通过压缩视频的离散隐空间上的自回归Transformer,在先前的视频预测工作的基础上,增加一台修改,以通过边界盒来模拟以Object为中心的信息。由于以Object为中心的表征具有更好的可压缩性,可以通过允许模型只访问Object信息以获取更长的时间范围的时间信息来提高训练效率。在对各种困难的以Object为中心的数据集进行评估时,所提出方法取得了比其他视频生成模型更好或同等的性能,同时在计算上保持更高的效率和可扩展性。此外,还表明所提出方法能够通过边界框操作来执行以Object为中心的可控性,这可能有助于下游的任务,如视频编辑或视觉规划。

已开源:https://github.com/wilson1yan/povt
论文:https://arxiv.org/abs/2206.04003

#自动驾驶##目标检测#
Robust Environment Perception for Automated Driving: A Unified Learning Pipeline for Visual-Infrared Object Detection
Elektronische Fahrwerksysteme GmbH&亚琛工业大学

RGB互补金属氧化物半导体(CMOS)传感器在可见光光谱内工作。因此,它对环境光线条件非常敏感。相反,长波红外(LWIR)传感器在8-14微米的光谱带内工作,其功能与可见光无关。
在本文中,作者利用视觉和热感知单元来实现强大的目标检测目的。在对FLIR[1]数据集进行精细的同步和(交叉)标记后,这种多模式感知数据通过卷积神经网络(CNN)来检测道路上的三个关键物体,即行人、自行车和汽车。在分别评估了RGB和红外(热敏和红外经常交替使用)传感器后,比较了各种网络结构,以便在特征层面有效地融合数据。RGB-热(RGBT)融合网络,利用了新的熵块注意模块(EBAM),以82.9%的mAP比最先进的网络[2]高出了10%。

已开源:https://github.com/SamVadidar/RGBT
论文:https://arxiv.org/abs/2206.03943

#对抗训练#
Wavelet Regularization Benefits Adversarial Training
同济大学

对抗性训练方法是最先进的(SOTA)针对对抗性例子的经验防御方法。许多正则化方法已被证明与对抗性训练相结合是有效的。尽管如此,这种正则化方法是在时域中实现的。由于对抗性弱点可被视为一种高频现象,因此必须在频域中调节对抗性训练的神经网络模型。面对这些挑战,作者对小波的正则化特性进行了理论分析,它可以增强对抗性训练。
文中提出一种基于Haar小波分解的小波正则化方法,Wavelet Average Pooling。这个小波正则化模块被整合到宽残差神经网络中,从而形成一台新的WideWaveletResNet模型。
在CIFAR-10和CIFAR-100的数据集上,作者提出的对抗性小波训练方法在不同类型的攻击下实现了相当的鲁棒性。它验证了小波正则化方法可以提高对抗性鲁棒性的假设,特别是在深广神经网络中。频率原理(F-Principle)和可解释性的可视化实验被实施,以显示该方法的有效性。

已开源:https://github.com/momo1986/AdversarialWaveletTraining
论文:https://arxiv.org/abs/2206.03727

#人脸修复#
Blind Face Restoration: Benchmark Datasets and a Baseline Model
北京理工大学&澳大利亚国立大学&中山大学

Blind Face Restoration(盲人脸修复BFR)旨在从其相应的低质量(LQ)输入中构建一台高质量(HQ)人脸图像。最近,许多 BFR 方法已被提出,并取得了显著的成功。然而,这些方法都是在私人合成的数据集上进行训练或评估的,使得后续的方法无法与之公平比较。
为了解决这个问题,作者首先合成两个盲目的人脸修复基准数据集,EDFace-Celeb-1M(BFR128)和EDFace-Celeb-150K(BFR512)。最先进的方法在五个设置下进行了基准测试,包括模糊、噪声、低分辨率、JPEG压缩神器和它们的组合(完全降质)。为了使比较更加全面,应用了五个广泛使用的定量指标和两个任务驱动的指标,包括 Average Face Landmark Distance(AFLD)和 Average Face ID Cosine Similarity (AFICS)。此外,还开发一台有效的基线模型,Swin Transformer U-Net(STUNet)。具有U网结构的STUNet应用了一种注意力机制和移位窗口方案,以捕捉长距离的像素互动,并在有效训练的同时更加关注重要的特征。
实验结果表明,所提出的基线方法在各种 BFR 任务上的表现优于SOTA方法。

已开源:https://github.com/bitzpy/Blind-Face-Restoration-Benchmark-Datasets-and-a-Baseline-Model
论文:https://arxiv.org/abs/2206.03697

#图像去噪#
Robust Deep Ensemble Method for Real-world Image Denoising
哈尔滨工业大学&旷视科技

最近,基于深度学习的图像去噪方法在与训练集分布相同的测试数据上取得了可喜的表现,其中基于合成或收集的真实世界训练数据的各种去噪模型已经被学习。然而,在处理真实世界的噪声图像时,去噪性能仍然是有限的。
本次工作,作者提出一种简单而有效的用于现实世界图像去噪的贝叶斯深度集合(BDE)方法,即用各种训练数据设置预先训练的几个有代表性的深度去噪器可以被融合以提高鲁棒性。BDE的基础是现实世界的图像噪声与信号高度相关,现实世界噪声图像中的异质噪声可以由不同的去噪器分别处理。特别是,将训练有素的CBDNet、NBNet、HINet、Uformer和GMSNet纳入去噪器池,并采用U-Net预测像素加权图来融合这些去噪器。不仅仅是学习像素加权图,而是引入贝叶斯深度学习策略来预测加权的不确定性以及加权图,通过预测方差来提高现实世界中噪声图像的鲁棒性。
大量的实验表明,通过融合现有的去噪器可以更好地去除现实世界的噪声,而不是训练一台成本昂贵的大型去噪器。在DND数据集上,BDE比最先进的去噪方法实现了+0.28~dB的PSNR增益。此外,作者注意到,在应用于真实世界的噪声图像时,基于不同高斯噪声水平的BDE去噪器优于最先进的CBDNet。以及BDE可以扩展到其他图像修复任务,并在图像去模糊、图像去雨和单图像超分辨率的基准数据集上分别取得了+0.30dB、+0.18dB和+0.12dB的PSNR增益。

将开源:https://github.com/lpj0/BDE
论文:https://arxiv.org/abs/2206.03691

#开集识别#
One Ring to Bring Them All: Towards Open-Set Recognition under Domain Shift
西班牙巴塞罗那自治大学&南开大学&华为麒麟

本次工作,作者研究了具有域迁移的开放集识别,其中最终目标是实现无源通用域适应(SF-UNDA),它解决了源域和目标域之间存在域和类别迁移的情况。在SF-UNDA设置下,模型在目标适应过程中不能再访问源数据,这旨在解决数据隐私问题。
作者提出一台新的训练方案,学习一台(n+1)方向的分类器来预测n个源类别和未知类别,其中只有已知源类别的样本可供训练。此外,对于目标适应,简单地采用加权熵最小化的方法,将源预训练的模型适应于没有源数据的未标记的目标域。
在实验中表明:
1)经过源训练后,产生的源模型在开放集单域泛化和开放集识别任务中可以获得出色的表现;
2)在目标适应后,该方法在几个基准上超过了目前的UNDA方法,这些方法在适应过程中需要源数据。对几个不同任务的通用性有力地证明了它的功效和泛化能力。
3)当在目标适应过程中与闭合域适应方法相结合时,无源方法在Office-31、Office-Home和VisDA上分别比目前最先进的UNDA方法多出2.5%、7.2%和13%。

将开源:https://github.com/Albert0147/OneRing_SF-UNDA
论文:https://arxiv.org/abs/2206.03600

#多标签分类##CVPR 2022#
Large Loss Matters in Weakly Supervised Multi-Label Classification
首尔大学&图宾根大学&马普所&HodooAI Lab

本次任务,首次从经验上表明,记忆效应发生在嘈杂的多标签分类中。并提出一种新的弱监督多标签分类方案,明确地利用了一种带有噪声标签的学习技术。方法虽然简单,但在各种部分标签数据集上实现了最先进的分类性能。

已开源:https://github.com/snucml/LargeLossMatters
论文:https://arxiv.org/abs/2206.03740

#视频目标分割##CVPR 2022#
Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation
北航&中科院&国科大&美团

Referring video object segmentation(参考视频目标分割)的目的是预测视频中自然语言表达所提到的对象的前景标签。以前的方法要么依赖于 3D ConvNets,要么结合额外的 2D ConvNets 作为编码器来提取混合空间-时间特征。然而,这些方法由于在解码阶段发生的延迟和隐含的空间-时间互动而受到空间错位或虚假干扰的影响。
为了解决这些限制,作者提出 Language-Bridged Duplex Transfer(LBDT)模块,它利用语言作为中间桥梁,在编码阶段的早期完成明确和适应性的空间-时间互动。具体来说,在时间编码器、指代词和空间编码器之间进行跨模态注意,以聚合和转移与语言相关的运动和外观信息。此外,还在解码阶段提出一台双边通道激活(BCA)模块,用于进一步去噪,并通过通道式激活突出空间-时间的一致特征。
广泛的实验表明,所提出方法在四个流行的基准上实现了新的最先进的性能,在A2D Sentences和 J-HMDB Sentences 句子上的绝对AP收益分别为6.8%和6.9%,同时消耗的计算开销减少了约7倍。

已开源:https://github.com/dzh19990407/LBDT
论文:https://arxiv.org/abs/2206.03789
使用道具 举报
| 来自北京
当贝投影