CVPR 近5年最佳论文汇总,最新热门研究方向有这些

news/2024/5/19 14:37:34/文章来源:https://blog.csdn.net/weixin_42645636/article/details/131539976

6月刚结束的CVPR会议大家关注了吗?不得不说真的是神仙打架。我拜读了一下,今年的best paper质量依然炸裂,能从这么多优质论文中脱颖而出,用“万里挑一”形容一点也不过分。

作为计算机视觉领域最具影响力的会议之一,CVPR往年的最佳论文也都非常有研究价值,所以今天我整理了近5年CVPR的最佳论文(2019-2023)来和大家分享。

资料已打包,文末领取

​CVPR 2023

Best Paper 最佳论文奖

1.Visual Programming: Compositional visual reasoning without training

这篇最佳论文我昨天就做过详细解析,看这篇了解。

总的来说,这篇文章提出了一种基于神经符号方法的框架VISPROG,它可以根据自然语言指令解决复杂的视觉任务。作者相信这是一个使AI系统覆盖更多复杂任务的有趣方式。

2.Planning-oriented Autonomous Driving

这篇论文提出了UniAD框架,用于解决自动驾驶任务。

现代自动驾驶系统通过车辆感知、预测和规划这三个模块实现。当前方法要么使用单独模型来实现每个任务,要么设计多任务学习来分离不同子任务。但是它们可能会经受累积错误或任务协调不足。

作者认为应该设计一个框架来实现最终目标:自动驾驶规划。根据这个观点,研究者重新审视感知和预测模块,并将任务优先级设置为实现规划,提出了UniAD框架,能够将完整的驾驶任务集成到一个网络中。

UniAD设计利用每个模块的优势,并提供全局视角下的特征抽象来促进 agent 交互。任务通过统一的查询接口交流,相互促进来实现规划。实验表明,该框架的理念能够显著超越先前的先进水平。

Honorable Mention 最佳论文荣誉提名奖

3.DynIBaR: Neural Dynamic Image-Based Rendering

这篇论文提出了一种方法来从单目视频中合成新视点。

当前基于时变 Neural Radiance Fields (动态 NeRF) 的方法在这个任务上表现出令人印象深刻的效果。但是对于长视频和复杂的对象运动和无控制的相机轨迹,这些方法会产生模糊或不准确的渲染,阻碍了它们在实际应用中的使用。

该研究提出的解决方法不是将整个动态场景编码到 MLPs 的权重中,相反,它采用基于图像的渲染框架,通过聚合场景运动感知的附近视图中的特征,来合成新视点。这个系统保留了先前方法在建模复杂场景和视角依赖效果方面的优势,但也能够从具有复杂场景动力学和无限制相机轨迹的长视频中合成真实感高的新视图。实验表明,在动态场景数据集上显著优于目前状态齐进方法。

Best Student Paper 最佳学生论文奖

4.3D Registration with Maximal Cliques

这篇论文提出了一种基于最大种群的3D点云配准方法。

3D点云配准是一个基础计算机视觉问题,它旨在搜索对准点云对的 optimal pose。作者提出了一种基于最大种群的3D配准方法,灵感来自放宽前最大种群约束,并在图中挖掘更多局部一致信息来生成 pose假设。

首先构建了一个兼容性图来表示初步对应关系之间的亲和关系,然后搜索最大种群,每个种群代表一个一致集。然后执行基于节点的种群选择,每个节点对应图权重最大的最大种群。对于选择的种群,使用SVD算法计算转换假设,并使用最佳假设进行配准。

实验表明方法显着提高了配准准确性,超过了多种最新方法,并提高了深度学习方法的效果。在3DMatch/3DLoMatch数据集上,配合深度学习方法实现了95.7%/78.9%的配准召回率

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

被引用260次

这篇文章提出一种 personalize 大规模文本到图像模型的方法。

大规模文本到图像模型在AI进化中取得了令人难以置信的进步,能够从给定的文本生成高质量且多样性的图像。然而,这些模型缺乏模仿给定参考集中主体外观并在不同上下文中生成新版画的能力。

在这项工作中,研究者提出了一种 personalize 文本到图像蒸镀模型的新方法。只需要少量主体图像作为输入,研究者能够微调预训练的文本到图像模型,使之能够与特定主体绑定独一无二的标识符。一旦主体映射到模型的输出域,独一无二的标识符即可用于生成主体在不同场景下的真实感图像。通过利用模型内置的语义先验与新的自伴生类特定先验保真损失,研究者的技术能够在参考图像中未出现过的场景、姿势、视角和照明条件下生成主体。研究者将这种技术应用于多个之前不可能完成的任务,包括主体再上下文化、文本指导视图合成以及艺术渲染,同时保留主体的关键特征。作者还提供了一个新的数据集和评价协议来评价这一主体驱动生成新任务。

CVPR 2022

Best Paper 最佳论文奖

1.Learning to Solve Hard Minimal Problems

作者提出一种在RANSAC框架下有效解决几何优化问题的方法,设计了一个学习策略来选择起始问题-解决方案配对,并通过实现RANSAC求解器来解决三个校准相机的相对姿态问题来展示他们的方法。

Honorable Mention 最佳论文荣誉提名奖

2.Dual-Shutter Optical Vibration Sensing

作者提出一种新的高速视觉振动计方法,方法使用两个不同快门类型的相机同时捕获场景,从而实现高达63kHz的感知速度。

Best Student Paper 最佳学生论文奖

3.EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

这篇论文提出了一个概率化的PnP方法,将Softmax带入连续域,并通过学习2D-3D点的分布来解决定向3D对象的问题。实验表明方法提升了姿态估计的效果。

Honorable Mention (Student)最佳学生论文荣誉提名奖

4.Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

被引用114次

作者提出了Ref-NeRF来解决NeRF在反射表面表现不佳的问题。Ref-NeRF使用反射辐射表示与基于场景属性的函数,而不是NeRF使用的参数化视图依赖辐射。实验表明Ref-NeRF改进了场景中反射表面外观的真实性和精度。

CVPR 2021

Best Paper 最佳论文奖

1.GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

被引用517次

作者通过将组成性3D场景表示纳入生成模型,实现了更可控的图像合成。实验结果表明,该模型能够有效解耦单个物体,并且具有很高的可控性。

Honorable Mention 最佳论文荣誉提名奖

2.Exploring Simple Siamese Representation Learning

被引用2296次

这篇论文发现简单的Siamese网络就可以学习有意义的表示,而不需要一些常见的假设。作者指出停止梯度操作起着关键作用,并提供了实验验证其假设。

实验表明:

  • 简单的Siamese网络可以学习有意义的表示

  • 停止梯度操作可以防止劣解

  • "SimSiam"方法取得与SOTA同样结果

  • 这简单的基准可以让人重新思考Siamese在无监督表示学习中的作用

3.Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

这篇论文利用社交视频的动态信息来补充缺少的ground truth,进而学习穿着人体更精细的几何信息。提出的端到端方法能生成高保真深度估计。

Best Student Paper 最佳学生论文奖

4.Task Programming: Learning Data Efficient Behavior Representations

这篇文章提出了一种通过多任务自监督学习来高效学习嵌入的方法,以减少行为分析领域专家的标注工作量。作者通过"任务编程"这一过程来有效构建任务,同时证明可以大大减少专家工作量。

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

被引用355次

这篇文章总结了ClipBERT框架,它通过稀疏采样实现视频和语言任务的端到端学习。从而超越使用全长视频离线特征的方法。实验表明少量与稀疏采样帧往往比密集全长视频特征更准确。

6.Binary TTC: A Temporal Geofence for Autonomous Navigation

概述了一种快速估计时至撞击(TTC)的新方法。作者通过一系列二值分类来近似TTC,使其可以在6.4ms的低延迟下提供临界撞击时间,足以在实时中用于路径规划。

7.Real-Time High-Resolution Background Matting

被引用122次

这篇论文提出了一种实时高分辨率的背景替换技术,这种技术可以实现4K下30fps、HD下60fps的实时高分辨率背景替换。它利用两个神经网络计算高质量alpha抠图,并考虑保留毛发细节。作者同时提出两个大规模的视频和图像抠图数据集用来训练模型。实验证明该方法效果优于先前技术,同时在速度和分辨率方面有显著提升。

CVPR 2020

Best Paper 最佳论文奖

1.Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

被引用244次

论文总结了一种从单视图图像无监督学习3D可变形物体类别的方法,这种方法利用了物体对称性这一先验,通过自编码器分解输入图像来学习3D物体类别。作者进一步建模可能但不一定对称的物体,从而应对更广泛的场景。实验表明方法可以从单视图图像准确地重建3D形状。

Best Student Paper 最佳学生论文

2.BSP-Net: Generating Compact Meshes via Binary Space Partitioning

被引用206次

论文概括了 BSP-Net:一种基于凸分解的无监督多边形网格学习方法。该方法利用 BSP 树来训练网络,从而从训练集中学习到凸分解。生成的多边形网格紧凑、水密且尖锐。

Honorable Mention (Student) 最佳学生论文提名奖

3.DeepCap: Monocular Human Performance Capture Using Weak Supervision

被引用152次

这篇文章提出了一种基于深度学习的单目密集人体动作捕捉方法。该方法通过基于多视点的弱监督训练,从而完全避免需要3D ground truth的数据。网络结构基于姿态估计和非刚性变形两步,通过区分这两部分任务来促进模型学习。实验表明该方法在质量和鲁棒性上超过state of the art。

CVPR 2019

Best Paper 最佳论文奖

1.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

被引用155次

这篇文章提出了基于费马光路径原理和瞬态成像的新理论和算法,能够重建非视线隐蔽物体。它利用瞬态测量的中断点来约束物体法线方向,从而实现准确的物体形状重建。实验表明,该方法可以重建周边隐蔽和散射隐蔽的复杂物体形状。这是一个重要的进步,能实现毫米和微米尺度下的非视线物体重建。

Honorable Mention 最佳论文荣誉提名奖

2.A Style-Based Generator Architecture for Generative Adversarial Networks

被引用7419次

论文概述了一种基于风格迁移文献的GAN生成器架构,可以自动学习高级属性和随机变化的分离,并提供直观的缩放控制。实验表明,该生成器在传统分布度量上优于state-of-the-art,插值和分解变化因素上也有更好的表现。研究者还提出两个新的方法来量化插值质量和分解,并介绍了一个新的人脸数据集。

3.Learning the Depths of Moving People by Watching Frozen People

被引用217次

这篇文章提出一种利用人体姿态先验的方法来预测场景中人和相机移动时的密集深度。研究者使用模仿模特的视频作为新的数据来源来学习人体深度先验。在推理时,使用场景静止区域的运动视差线索来指导深度预测。实验表明方法能够预测复杂人体动作序列中的密集深度,并展示相比state-of-the-art的提升。

Best Student Paper 最佳学生论文奖

4.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

被引用414次

这篇论文研究如何解决视觉语言导航(VLN)三个关键挑战:跨模态匹配、模糊反馈和广度化问题。

作者提出强化跨模态匹配(RCM)方法,通过强化学习联合地 enforcing 跨模态对应性。具体来说,匹配 critic 用来提供内部奖励,鼓励指令和轨迹之间的全局匹配。一个推理导航器用于在局部视觉场景中进行跨模态匹配。

实验结果表明该方法达到新的 state-of-the-art 性能,且具有很好的广度化能力。这对视觉语言导航任务有重大意义。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR最佳”免费领取论文原文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_325877.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

E类变换器仿真

1 参数计算(待续) (1)确定振荡频率: (2)计算各器件参数; 2 电路仿真 (1)电路图 (2)电路分析 3 结果 (1)…

Spark | 性能调优原理与步骤 | 案例讲解

🔥 跟着梁哥打卡一波spark的性能调优~ 文章目录 1、Spark调优原理与步骤2、Spark任务UI监控3、Spark调优案例3.1、资源配置优化3.2、利用缓存减少重复计算3.3、数据倾斜调优3.4、broadcastmap代替join3.5、reduceByKey/aggregateByKey代替groupByKey 1、…

[github-100天机器学习]day2 simple linear regression

https://github.com/LiuChuang0059/100days-ML-code/blob/master/Day2_SImple_Linear_regression/README.md 简单线性回归 使用单一特征预测响应值。基于自变量X来预测因变量Y的方法,假设两者线性相关,寻找一种根据特征或自变量X的线性函数来预测Y。 目…

Squid代理服务器配置及CDN简介

Squid代理服务器配置及CDN简介 一、Squid介绍1、代理的工作机制2、代理服务器的概念3、代理服务器的作用4、Squid代理的类型 二、Squid搭建1、安装Squid服务2、构建传统代理服务器3、构建透明代理服务器4、ACL访问控制5、Squid日志分析6、Squid反向代理 三、CDN1、CDN简介2、CD…

【C++初阶】12. Stack(栈)和Queue(队列)

1. 栈和队列的介绍 栈的介绍 队列的介绍 2. 栈和队列的使用 最小栈 栈的压入、弹出序列 逆波兰表达式求值 拓展:如何从中缀变为后缀 3. 两种设计模式 设计模式目前分为26种,这里就只介绍两种 适配器模式迭代器模式 在日常生活中,我们常…

剑指offer27.二叉树的镜像

这道题很简单,写了十多分钟就写出来了,一看题目就知道这道题肯定要用递归。先交换左孩子和右孩子,再用递归交换左孩子的左孩子和右孩子,交换右孩子的左孩子和右孩子,其中做一下空判断就行。以下是我的代码:…

apple pencil平替笔哪个好用?适用于绘画的电容笔推荐

由于ipad的版本一直在升级,其功能也在增加,其功能已经达到了与手提电脑相媲美的程度。而且随着科技的发展,ipad也不仅仅是一个娱乐的工具,更是一个可以用来学习、画画、工作的强大工具。想要提高生产力,那么电容笔就是…

51单片机一氧化碳烟雾报警器mq2MQ7ADC0832采集

实践制作DIY- GC0152--- 一氧化碳烟雾报警器 基于51单片机设计------- 一氧化碳烟雾报警器 二、功能介绍: STC89C52单片机lcd1602adc0832mq2烟雾传感器mq7烟雾传感器蜂鸣器2个按键设定烟雾报警阈值 2个按键设定一氧化碳报警阈值 1.通过ADC0832采集MQ2烟雾输出的电…

达梦数据库性能分析

目录 数据库常用性能分析方法... 3 一、服务器监控... 3 1、cpu监控... 3 2、内存... 3 3、swap内存... 3 4、磁盘... 4 5、网络监测... 4 二、数据库实例监控... 6 1、v$sessions. 6 2、慢sql、阻塞、锁... 7 3、内存监控... 10 4、monitor监控工具使用及开启sql日…

【算法与数据结构】28、LeetCode实现strStr函数

文章目录 一、题目二、暴力穷解法三、KMP算法四、Sunday算法五、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、暴力穷解法 思路分析:首先判断字符串是否合法,然后利用for循环&#xff…

Docker发布JAVA vhr微人事后端(确保打包没问题再发布)

本文代码来源于(感谢作者) GitHub - lenve/vhr: 微人事是一个前后端分离的人力资源管理系统,项目采用SpringBootVue开发。1.创建DockerFile文件 创建mail文件夹 创建web文件夹 以下为mail dockerfile FROM java:8 Add *.jar /app/app.ja…

【深度学习】AIGC ,ControlNet 论文,原理,训练,部署,实战,教程

论文:https://arxiv.53yu.com/pdf/2302.05543 代码:https://github.com/lllyasviel/ControlNet 得分几个博客完成这个事情的记录了,此篇是第一篇,摘录了一些论文内容。ControlNet 的原理极为朴实无华(对每个block添加…

vue3+ts+elementui制作精美的课表

使用vue3tselementui 如何制作出精美的课表呢&#xff0c; 最终效果图如下: 直接上代码&#xff1a; 这里直接把封装成一个课表的组件&#xff1a; <script setup lang"ts"> import { ref, watch, onMounted } from "vue"; import IconText from …

Android Studio实现内容丰富的安卓志愿者平台

如需源码可以添加q-------3290510686&#xff0c;也有演示视频演示具体功能&#xff0c;源码不免费&#xff0c;尊重创作&#xff0c;尊重劳动。 项目编号122 1.开发环境 android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍 安卓端&#xff1a; 1.注册登录 2.查看公告 3.…

网页的动静分离设置

我们都知道nginx处理静态网页是强项,而tomcat处理动态网页是强项.我们可以发挥他们共同的优点.nginx处理静态页面而tomcat处理动态页面 进入nginx配置文件改 总结 1.改配置文件最好复制一份 2.做一步验证一步 才知道哪里出错了 3.出错了别着急先看页面在浏览器能不能打开 不…

nRF52832蓝牙概述

基本概念 RSSI&#xff08;Received Signal Strength Indicator&#xff09;是接收信号的强度指示。 接收包RSSI是指无线模块发送信息后&#xff0c;接收端的无线模块接收到数据后&#xff0c;当前接收数据的信号强度的寄存器值&#xff0c;也就是接收模块获取到发送模块当前发…

【Verilog HDL】FPGA-testbench基础知识

&#x1f389;欢迎来到FPGA专栏~testbench基础知识 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒&#x1f379; ✨博客主页&#xff1a;小夏与酒的博客 &#x1f388;该系列文章专栏&#xff1a;FPGA学习之旅 文章作者技术和水平有限&#xff0c;如果文中出现错误&#xff0c;希望大家能…

20230704测试STC32G实验箱9.6(STC32G12K128)开发板的虚拟串口(C语言深入了解)

20230704测试STC32G实验箱9.6&#xff08;STC32G12K128&#xff09;开发板的虚拟串口&#xff08;C语言深入了解&#xff09; 06第五集&#xff1a;C语言运算符和进制数入门上.mp4 07第五集&#xff1a;C语言运算符和进制数入门下.mp4 2023/7/4 19:00 下次 在【冲哥】录视频的时…

PSI算法极简概述

什么是隐私求交PSI 隐私求交是多方安全计算中的密码学技术&#xff0c;它允许数据持有方通过比较加密集合计算得到交集&#xff0c;且任何一方都不会获得其他信息。PSI还存在一种变体&#xff0c;即CS场景。客户端可以获取其与服务器的交集但是服务器无法学习到该集合。如果在…

netty学习(2):多个客户端与服务器通信

1. 基于前面一节netty学习&#xff08;1&#xff09;:1个客户端与服务器通信 只需要把服务器的handler改造一下即可&#xff0c;通过ChannelGroup 找到所有的客户端channel&#xff0c;发送消息即可。 package server;import io.netty.channel.*; import io.netty.channel.gr…