每日学术速递4.25

news/2024/4/27 13:08:42/文章来源:https://blog.csdn.net/muye_IT/article/details/130383153

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models

标题:具有扩散模型的长期光度一致的新视图合成

作者:Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker

文章链接:https://arxiv.org/abs/2304.10700

项目代码:https://yorkucvil.github.io/Photoconsistent-NVS/

摘要:

        从单个输入图像合成新的视图是一项具有挑战性的任务,其目标是从可能被大运动分开的所需相机姿势生成场景的新视图。由于场景内(即遮挡)和视野外的未观察到的元素,这种合成任务的高度不确定性使得使用生成模型来捕获各种可能的输出很有吸引力。在本文中,我们提出了一种新颖的生成模型,该模型能够生成与指定相机轨迹一致的一系列逼真图像,以及单个起始图像。我们的方法以基于自回归条件扩散的模型为中心,该模型能够以几何一致的方式内插可见场景元素,并外推视图中未观察到的区域。调节仅限于捕获单个相机视图的图像和新相机视图的(相对)姿势。为了测量一系列生成视图的一致性,我们引入了一个新的度量标准,即阈值对称对极距离 (TSED),以测量序列中一致帧对的数量。虽然先前的方法已被证明可以在成对的视图中产生高质量的图像和一致的语义,但我们根据我们的指标凭经验表明它们通常与所需的相机姿势不一致。相比之下,我们证明我们的方法可以产生逼真的图像和视图一致的图像。

2.VisFusion: Visibility-aware Online 3D Scene Reconstruction from Videos(CVPR 2023)

标题:VisFusion:基于视频的可见性在线 3D 场景重建

作者:Huiyu Gao, Wei Mao, Miaomiao Liu

文章链接:https://arxiv.org/abs/2304.10687

项目代码:https://github.com/huiyu-gao/VisFusion

摘要:

        我们提出了 VisFusion,这是一种基于姿势单眼视频的可见性感知在线 3D 场景重建方法。特别是,我们的目标是从体积特征重建场景。与以前的重建方法不同,它从输入视图中聚合每个体素的特征而不考虑其可见性,我们的目标是通过从每个图像对中的投影特征计算出的相似性矩阵明确推断其可见性来改进特征融合。继之前的工作之后,我们的模型是一个由粗到细的管道,包括体积稀疏化过程。与他们使用固定占用阈值全局稀疏体素的作品不同,我们沿着每条视觉射线对局部特征量执行稀疏化,以每条射线至少保留一个体素以获得更多细节。然后将稀疏局部体积与全局体积融合以进行在线重建。我们进一步建议通过跨尺度学习其残差以从粗到细的方式预测 TSDF,从而获得更好的 TSDF 预测。基准测试的实验结果表明,我们的方法可以在更多场景细节的情况下实现卓越的性能。

3.Factored Neural Representation for Scene Understanding

标题:用于场景理解的分解神经表示

作者:Yu-Shiang Wong, Niloy J. Mitra

文章链接:https://arxiv.org/abs/2304.10950

项目代码:https://yushiangw.github.io/factorednerf/

摘要:

        场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。神经表征的出现,尤其是神经隐式表征和辐射场,开启了端到端优化以共同捕捉几何、外观和物体运动的可能性。然而,当前的方法产生全局场景编码,假设多视图捕获在场景中有有限的或没有运动,并且不便于在新颖的视图合成之外进行简单的操作。在这项工作中,我们引入了一个分解的神经场景表示,它可以直接从单目 RGB-D 视频中学习,以生成对象级神经表示,并带有对象运动(例如,刚性轨迹)和/或变形(例如,非刚性运动)。我们针对合成数据和真实数据的一组神经方法评估我们的方法,以证明表示是有效的、可解释的和可编辑的(例如,改变对象轨迹)。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_103774.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 数据存储 ---->方式

我的个人博客主页:如果’真能转义1️⃣说1️⃣的博客主页 关于Python基本语法学习---->可以参考我的这篇博客:《我在VScode学Python》 数据存储是指在数据加工处理过程中将产生的临时文件或加工结果以某种格式保存。 常用的数据存储格式包括 TXT、Exc…

Ansys Zemax | 设计抬头显示器时要使用哪些工具 – 第一部分

本文演示了如何使用OpticStudio工具设计分析抬头显示器(HUD)性能,即全视场像差(FFA)和NSC矢高图。(联系我们获取文章附件) 初始结构 HUD简介 以下为HUD的示意图。液晶显示器作为光源发光,光线被HUD的两个反射镜反射,然后通过风挡玻璃反射&am…

【MySQL】MES中,发货计划取数逻辑

系列文章 C#底层库–MySQLBuilder脚本构建类(select、insert、update、in、带条件的SQL自动生成) 本文链接:https://blog.csdn.net/youcheng_ge/article/details/129179216 C#底层库–MySQL数据库操作辅助类(推荐阅读&#xff0…

聊聊 IP packet 的 TTL 与 tcp segment 的 MSL

聊聊 IP packet 的 TTL 与 tcp segment 的 MSL 1 前言 - 网络知识的重要性 近几年在排查解决应用系统在客户现场遇到的复杂问题时,越来越觉得除了扎实的LINUX操作系统知识,对TCP/IP网络知识的深入理解也是至关重要的。 有鉴于此,后续笔者会…

启英泰伦智能语音芯片在语音控制吸顶灯上的应用解决方案

随着智能控制技术的不断发展,人们对于家用电器的功能需求越来越多,智能吸顶灯是一种常见的照明设备,通常被安装在室内房顶上面,除了具有传统吸顶灯的照明功能外,还添加了智能控制和自动化功能,如远程控制、…

必须要知道的hive调优知识(下)

Hive如果不用参数调优,在map和reduce端应该做什么 1、map阶段优化 Map阶段的优化,主要是确定合适的map数。那么首先要了解map数的计算公式 num_reduce_tasks min[${hive.exec.reducers.max}, (${input.size}/${hive.exec.reducers.bytes.per.reducer…

《一次性分割一切》阅读笔记

目录 0 体验 1 摘要 2 十个问题 参考文献 0 体验 体验地址:SEEM - a Hugging Face Space by xdecoder 体验结果: 将哈士奇和汽车人从图片中分割出来。 1 摘要 尽管对于交互式人工智能系统的需求不断增长,但在视觉理解(例如…

Qt5.9学习笔记-事件(一)

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

对git的简单总结

Git的基本使用 配置用户名和邮箱常见的操作查看仓库的状态远端仓库整体流程分支本地分支命令远端分支命令 这几天在做毕业设计,需要用到git,所以简单总结一下git的基本使用。 配置用户名和邮箱 git config --global user.name "Your Name" g…

ai模型训练生成效果 chilloutmix_NiPrunedFp32Fix.safetensors

模型名称: chilloutmix_NiPrunedFp32Fix.safetensors 关键词 extremely detailed CG unity 8k wallpaper,(masterpiece),(best quality),(ultra detailed),(ultra realistic),(Best character details:1.2),dynamic angle,professional lighting, photon mapping, …

【22-23 春学期】人工智能基础--AI作业6-误差反向传播

老师发布作业链接:(429条消息) 【22-23 春学期】AI作业6-误差反向传播_HBU_David的博客-CSDN博客 目录 老师发布作业链接:(429条消息) 【22-23 春学期】AI作业6-误差反向传播_HBU_David的博客-CSDN博客 1.梯度下降 2.反向传播 3.计算图 4.使用Numpy…

【代理设计模式详解】C/Java/JS/Go/Python/TS不同语言实现

简介 代理模式(Proxy Pattern)是一种结构型设计模式,用一个类来代理另一个类或几个类的功能。 在代理模式中,我们创建具有现有对象的对象,以便向外界提供功能接口。 延迟初始化(虚拟代理)。如…

FPGA基础知识 LCMXO3LF-6900C-6BG400I FPGA可编程逻辑简介

FPGA是英文Field-Programmable Gate Array的缩写,即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定…

喜报 | ScanA内容安全云监测获评“新一代信息技术创新产品”

4月20日,在赛迪主办的2023 IT市场年会上,“年度IT市场权威榜单”正式发布。 知道创宇的ScanA内容安全云监测产品荣获“新一代信息技术创新产品”奖项。作为中国IT业界延续时间最长的年度盛会之一,历届IT市场年会公布的IT市场权威榜单已成为市…

状态模式——随遇而安

● 状态模式介绍 状态模式中的行为是由状态来决定的,不用的状态下有不同的行为。状态模式和策略模式结构几乎完全一样,但它们的目的、本质却完全不一样就。状态模式的行为是平行的、不可替代的,策略模式的行为是彼此孤立、可相互替换的。用一…

微分方程数值解法(Runge-Kutta法PLC实现)

微分方程数值解法之欧拉法请参看下面的博客文章: 微分方程数值解法(PID仿真用一阶被控对象库PLC算法实现)_数学微积分算法plc编程实例_RXXW_Dor的博客-CSDN博客微分方程除极特殊情况外,大部分不可能求出它的精确解,只能用各种近似方法得到满足一定精度的近似解,微分方程由…

web端导航菜单系列

导航菜单属于导航中最常规的一种导航模式,它有2个显而易见的用途:帮助我们找到想要的任何东西和告诉我们现在身在何处。帮助用户在不同页面之间跳转找到目标功能。 导航作为网站或者平台的骨架,是产品设计中不容忽视的一环。结合自身对于导航…

如何建立Linux与git的连接?

文章目录 建立连接三板斧: 本文以Xshell为案例进行与git的连接! 建立连接三板斧: add , commit ,push Linux与git远程连接的方法: 1.设置全局的用户名和邮箱 git config – global user.name “你的用户名” git config – glo…

Springboot Mybatis使用pageHelper实现分页查询

以下介绍实战中数据库框架使用的是mybatis,对整合mybatis此处不做介绍。 使用pageHelper实现分页查询其实非常简单,共两步: 一、导入依赖; 二、添加配置; 那么开始, 第一步: pom.xml添加依…

不得不的创建型模式-原型模式

原型模式是一种创建型模式&#xff0c;它通过复制一个已有对象来创建新的对象&#xff0c;而无需知道新对象的具体类型。 原型模型的结构&#xff1a; 下面是一个简单的C实现原型模式的代码示例&#xff1a; #include <iostream> #include <string> #include <…