6月刚结束的CVPR会议大家关注了吗？不得不说真的是神仙打架。我拜读了一下，今年的best paper质量依然炸裂，能从这么多优质论文中脱颖而出，用“万里挑一”形容一点也不过分。

作为计算机视觉领域最具影响力的会议之一，CVPR往年的最佳论文也都非常有研究价值，所以今天我整理了近5年CVPR的最佳论文（2019-2023）来和大家分享。

资料已打包，文末领取

CVPR 2023

Best Paper 最佳论文奖

1.Visual Programming: Compositional visual reasoning without training

这篇最佳论文我昨天就做过详细解析，看这篇了解。

总的来说，这篇文章提出了一种基于神经符号方法的框架VISPROG，它可以根据自然语言指令解决复杂的视觉任务。作者相信这是一个使AI系统覆盖更多复杂任务的有趣方式。

2.Planning-oriented Autonomous Driving

这篇论文提出了UniAD框架，用于解决自动驾驶任务。

现代自动驾驶系统通过车辆感知、预测和规划这三个模块实现。当前方法要么使用单独模型来实现每个任务，要么设计多任务学习来分离不同子任务。但是它们可能会经受累积错误或任务协调不足。

作者认为应该设计一个框架来实现最终目标：自动驾驶规划。根据这个观点，研究者重新审视感知和预测模块，并将任务优先级设置为实现规划，提出了UniAD框架，能够将完整的驾驶任务集成到一个网络中。

UniAD设计利用每个模块的优势，并提供全局视角下的特征抽象来促进 agent 交互。任务通过统一的查询接口交流，相互促进来实现规划。实验表明，该框架的理念能够显著超越先前的先进水平。

Honorable Mention 最佳论文荣誉提名奖

3.DynIBaR: Neural Dynamic Image-Based Rendering

这篇论文提出了一种方法来从单目视频中合成新视点。

当前基于时变 Neural Radiance Fields (动态 NeRF) 的方法在这个任务上表现出令人印象深刻的效果。但是对于长视频和复杂的对象运动和无控制的相机轨迹，这些方法会产生模糊或不准确的渲染，阻碍了它们在实际应用中的使用。

该研究提出的解决方法不是将整个动态场景编码到 MLPs 的权重中，相反，它采用基于图像的渲染框架，通过聚合场景运动感知的附近视图中的特征，来合成新视点。这个系统保留了先前方法在建模复杂场景和视角依赖效果方面的优势，但也能够从具有复杂场景动力学和无限制相机轨迹的长视频中合成真实感高的新视图。实验表明，在动态场景数据集上显著优于目前状态齐进方法。

Best Student Paper 最佳学生论文奖

4.3D Registration with Maximal Cliques

这篇论文提出了一种基于最大种群的3D点云配准方法。

3D点云配准是一个基础计算机视觉问题，它旨在搜索对准点云对的 optimal pose。作者提出了一种基于最大种群的3D配准方法，灵感来自放宽前最大种群约束，并在图中挖掘更多局部一致信息来生成 pose假设。

首先构建了一个兼容性图来表示初步对应关系之间的亲和关系，然后搜索最大种群，每个种群代表一个一致集。然后执行基于节点的种群选择，每个节点对应图权重最大的最大种群。对于选择的种群，使用SVD算法计算转换假设，并使用最佳假设进行配准。

实验表明方法显着提高了配准准确性，超过了多种最新方法,并提高了深度学习方法的效果。在3DMatch/3DLoMatch数据集上，配合深度学习方法实现了95.7%/78.9%的配准召回率

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

被引用260次

这篇文章提出一种 personalize 大规模文本到图像模型的方法。

大规模文本到图像模型在AI进化中取得了令人难以置信的进步，能够从给定的文本生成高质量且多样性的图像。然而，这些模型缺乏模仿给定参考集中主体外观并在不同上下文中生成新版画的能力。

在这项工作中，研究者提出了一种 personalize 文本到图像蒸镀模型的新方法。只需要少量主体图像作为输入，研究者能够微调预训练的文本到图像模型，使之能够与特定主体绑定独一无二的标识符。一旦主体映射到模型的输出域，独一无二的标识符即可用于生成主体在不同场景下的真实感图像。通过利用模型内置的语义先验与新的自伴生类特定先验保真损失，研究者的技术能够在参考图像中未出现过的场景、姿势、视角和照明条件下生成主体。研究者将这种技术应用于多个之前不可能完成的任务，包括主体再上下文化、文本指导视图合成以及艺术渲染，同时保留主体的关键特征。作者还提供了一个新的数据集和评价协议来评价这一主体驱动生成新任务。

CVPR 2022

Best Paper 最佳论文奖

1.Learning to Solve Hard Minimal Problems

作者提出一种在RANSAC框架下有效解决几何优化问题的方法，设计了一个学习策略来选择起始问题-解决方案配对，并通过实现RANSAC求解器来解决三个校准相机的相对姿态问题来展示他们的方法。

Honorable Mention 最佳论文荣誉提名奖

2.Dual-Shutter Optical Vibration Sensing

作者提出一种新的高速视觉振动计方法，方法使用两个不同快门类型的相机同时捕获场景，从而实现高达63kHz的感知速度。

Best Student Paper 最佳学生论文奖

3.EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

这篇论文提出了一个概率化的PnP方法，将Softmax带入连续域，并通过学习2D-3D点的分布来解决定向3D对象的问题。实验表明方法提升了姿态估计的效果。

Honorable Mention (Student)最佳学生论文荣誉提名奖

4.Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

被引用114次

作者提出了Ref-NeRF来解决NeRF在反射表面表现不佳的问题。Ref-NeRF使用反射辐射表示与基于场景属性的函数，而不是NeRF使用的参数化视图依赖辐射。实验表明Ref-NeRF改进了场景中反射表面外观的真实性和精度。

CVPR 2021

Best Paper 最佳论文奖

1.GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

被引用517次

作者通过将组成性3D场景表示纳入生成模型，实现了更可控的图像合成。实验结果表明，该模型能够有效解耦单个物体，并且具有很高的可控性。

Honorable Mention 最佳论文荣誉提名奖

2.Exploring Simple Siamese Representation Learning

被引用2296次

这篇论文发现简单的Siamese网络就可以学习有意义的表示，而不需要一些常见的假设。作者指出停止梯度操作起着关键作用，并提供了实验验证其假设。

实验表明：

简单的Siamese网络可以学习有意义的表示
停止梯度操作可以防止劣解
"SimSiam"方法取得与SOTA同样结果
这简单的基准可以让人重新思考Siamese在无监督表示学习中的作用

3.Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

这篇论文利用社交视频的动态信息来补充缺少的ground truth，进而学习穿着人体更精细的几何信息。提出的端到端方法能生成高保真深度估计。

Best Student Paper 最佳学生论文奖

4.Task Programming: Learning Data Efficient Behavior Representations

这篇文章提出了一种通过多任务自监督学习来高效学习嵌入的方法，以减少行为分析领域专家的标注工作量。作者通过"任务编程"这一过程来有效构建任务，同时证明可以大大减少专家工作量。

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

被引用355次

这篇文章总结了ClipBERT框架，它通过稀疏采样实现视频和语言任务的端到端学习。从而超越使用全长视频离线特征的方法。实验表明少量与稀疏采样帧往往比密集全长视频特征更准确。

6.Binary TTC: A Temporal Geofence for Autonomous Navigation

概述了一种快速估计时至撞击(TTC)的新方法。作者通过一系列二值分类来近似TTC，使其可以在6.4ms的低延迟下提供临界撞击时间，足以在实时中用于路径规划。

7.Real-Time High-Resolution Background Matting

被引用122次

这篇论文提出了一种实时高分辨率的背景替换技术，这种技术可以实现4K下30fps、HD下60fps的实时高分辨率背景替换。它利用两个神经网络计算高质量alpha抠图，并考虑保留毛发细节。作者同时提出两个大规模的视频和图像抠图数据集用来训练模型。实验证明该方法效果优于先前技术，同时在速度和分辨率方面有显著提升。