【AI视野·今日CV 计算机视觉论文速览第268期】Mon, 16 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 16 Oct 2023
Totally 61 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Vision-by-Language for Training-Free Compositional Image Retrieval
Authors Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata
给定图像和目标修改，例如埃菲尔铁塔的图像和夜间无人的文本，组合图像检索 CIR 旨在检索数据库中的相关目标图像。虽然监督方法依赖于昂贵的注释三元组，即查询图像、文本修改和目标图像，但最近的研究通过使用大规模视觉语言模型 VLM、执行零射击 CIR ZS CIR 来回避这一需求。然而，ZS CIR 中最先进的方法仍然需要在大量图像文本对上训练特定于任务的定制模型。在这项工作中，我们建议通过语言 CIReVL 进行组合图像检索，以免训练的方式解决 CIR 问题，CIReVL 是一种简单但人类可理解且可扩展的管道，可以有效地将大规模 VLM 与大型语言模型 LLM 重新组合。通过使用预先训练的生成 VLM 为参考图像添加标题，并要求 LLM 根据文本目标修改重新组合标题，以便通过例如CLIP，我们实现了模块化语言推理。在四个 ZS CIR 基准测试中，我们发现具有竞争力的、部分最先进的性能优于监督方法。此外，CIReVL 的模块化提供了简单的可扩展性，无需重新训练，使我们能够研究 ZS CIR 的扩展规律和瓶颈，同时轻松地将部分扩展至先前报告结果的两倍以上。最后，我们证明 CIReVL 通过在语言域中以模块化方式组合图像和文本，使 CIR 易于人类理解，从而使其可干预，从而允许事后重新调整失败案例。

SAIR: Learning Semantic-aware Implicit Representation
Authors Canyu Zhang, Xiaoguang Li, Qing Guo, Song Wang
图像的隐式表示可以将连续域中的任意坐标映射到相应的颜色值，为图像重建提供了强大的能力。然而，现有的隐式表示方法仅专注于构建连续的外观映射，忽略了跨像素的语义信息的连续性。因此，当输入图像中的语义信息被破坏（例如，大区域丢失）时，它们很难获得期望的重建结果。为了解决这个问题，我们建议学习语义感知隐式表示 SAIR，也就是说，我们使每个像素的隐式表示依赖于其外观和语义信息，例如像素属于哪个对象。为此，我们提出了一个具有两个模块的框架：1为大区域缺失的损坏图像构建语义隐式表示 SIR。给定连续域中的任意坐标，我们可以获得其各自的文本对齐嵌入，指示像素所属的对象。 2.基于SIR构建外观隐式表示AIR。给定连续域中的任意坐标，无论输入中是否丢失该像素，我们都可以重建其颜色。

Transformer-based Multimodal Change Detection with Multitask Consistency Constraints
Authors Biyuan Liu, Huaixin Chen, Kun Li, Michael Ying Yang
变化检测在分析随时间变化的时间迭代的地球观测中发挥着基础作用。然而，最近的研究在很大程度上忽略了多模态数据的利用，与单模态方法相比，多模态数据具有显着的实用和技术优势。这项研究的重点是利用数字表面模型 DSM 数据和不同时间捕获的航空图像来检测二维以外的变化。我们观察到当前的变化检测方法正在努力解决语义和高度变化检测任务之间的多任务冲突。为了应对这一挑战，我们提出了一种基于 Transformer 的高效网络，该网络通过交叉注意力学习跨维度输入之间的共享表示。它采用一致性约束来建立多模态关系，包括通过高度变化阈值获取伪变化，并最小化重叠区域内语义和伪变化之间的差异。构建了涵盖荷兰三个城市的 DSM 图像多模态数据集。它为跨维度输入的超二维变化检测奠定了新的基础。与五种最先进的变化检测方法相比，我们的模型在语义和高度变化检测方面表现出一致的多任务优势。

Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation
Authors Iuliia Kotseruba, John K. Tsotsos
了解驾驶员在看什么对于许多应用都很重要，包括驾驶员培训、监控和辅助以及自动驾驶。传统上，影响人类视觉注意力的因素分为自下而上的对显着区域的非自愿吸引和自上而下的任务和情境驱动。尽管两者都在驾驶员注视分配中发挥作用，但大多数现有建模方法都应用为自下而上显着性开发的技术，并且没有明确考虑任务和上下文影响。同样，常见的驾驶注意力基准缺乏相关的任务和上下文注释。因此，为了能够对这些因素进行分析和建模以进行驾驶员注视预测，我们提出以下建议 1 解决流行的 DR 眼睛 VE 数据集的一些缺点，并通过驾驶任务和上下文的每帧注释对其进行扩展 2 对许多基线和 SOTA 进行基准测试显着性和驾驶员注视预测模型并对其进行分析。最后，3 一种新颖的模型，可以通过明确的动作和上下文信息来调节驾驶员注视预测，从而显着提高 DR 眼 VE 的 SOTA 性能，整体提高了 24 KLD 和 89 NSS，并且在动作和安全关键子集上提高了 SOTA 性能交叉路口场景由 10 30 KLD 决定。

Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy
Authors Anton Baryshnikov, Max Ryabinin
由于质量的快速提高和大量的实际应用，文本到图像的合成最近引起了广泛的关注。然而，文本到图像模型的语言理解能力仍然知之甚少，这使得很难推理给定模型能够很好理解的提示表述。在这项工作中，我们测量了流行文本到图像模型的能力，以理解文本上位词或单词之间的关系。我们基于 WordNet 语义层次结构和在 ImageNet 上预训练的现有图像分类器设计了两个自动指标。这些指标既可以对文本与图像模型的语言能力进行广泛的定量比较，又可以提供一种发现细粒度的定性差异的方法，例如模型未知的单词，因此模型很难绘制。

Time CNN and Graph Convolution Network for Epileptic Spike Detection in MEG Data
Authors Pauline Mouches, Thibaut Dejean, Julien Jung, Romain Bouet, Carole Lartizien, Romain Quentin
癫痫患者的脑磁图 MEG 记录显示尖峰，这是病理学的典型生物标志物。检测这些尖峰可以准确定位触发癫痫发作的大脑区域。尖峰检测通常是手动执行的。然而，由于 MEG 数据的复杂性，这是一项繁重且容易出错的任务。为了解决这个问题，我们提出了一个一维时间卷积神经网络 Time CNN 与图卷积网络 GCN 相结合，将 MEG 记录的短时间帧分类为包含尖峰或不包含尖峰。与其他最近的方法相比，我们的模型需要训练的参数较少，我们建议使用 GCN 来解释 MEG 传感器的空间关系。

PaLI-3 Vision Language Models: Smaller, Faster, Stronger
Authors Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut
本文介绍了 PaLI 3，这是一种更小、更快、更强的视觉语言模型 VLM，与大 10 倍的类似模型相比具有优势。作为实现这种强大性能的一部分，我们将使用分类目标预训练的 Vision Transformer ViT 模型与 SigLIP 预训练模型进行比较。我们发现，虽然在标准图像分类基准上表现稍差，但基于 SigLIP 的 PaLI 在各种多模式基准上表现出卓越的性能，特别是在本地化和视觉定位文本理解方面。我们将 SigLIP 图像编码器的参数扩展至 20 亿个，并在多语言跨模态检索方面实现了新的技术水平。

mnmDTW: An extension to Dynamic Time Warping for Camera-based Movement Error Localization
Authors Sebastian Dill, Maurice Rohr
在这个概念验证中，我们使用计算机视觉 CV 方法从锻炼视频中提取姿势信息。然后，我们采用动态时间规整 DTW 的修改版本来计算与练习的黄金标准执行的偏差。具体来说，我们单独计算每个身体部位之间的距离，以获得更精确的锻炼准确性测量。

Equirectangular image construction method for standard CNNs for Semantic Segmentation
Authors Haoqian Chen, Jian Liu, Minghe Li, Kaiwen Jiang, Ziheng Xu, Rencheng Sun, Yi Sui
360度球面图像具有视场宽的优点，通常投影在平面上进行处理，称为等距柱状图像。等距柱状图像中的物体形状可能会扭曲并且缺乏平移不变性。此外，带有标签的等距柱状图像的公开数据集很少，这对标准 CNN 模型有效处理等距柱状图像提出了挑战。为了解决这个问题，我们提出了一种将透视图像转换为等距柱状图像的方法。采用球心投影和等距圆柱投影的逆变换。这使得标准 CNN 能够学习等距柱状图像中不同位置的畸变特征，从而获得语义上等距柱状图像的能力。参数 phi 决定了透视图像的投影位置，已使用各种数据集和模型进行了分析，例如 UNet、UNet、SegNet、PSPNet 和 DeepLab v3。实验表明，对于标准 CNN，等距柱状图像有效语义分割的 phi 最佳值为 6 pi 16。与其他三类方法监督学习、无监督学习和数据增强相比，本文提出的方法具有最佳的平均 IoU 值，为 43.76 。

Timestamp-supervised Wearable-based Activity Segmentation and Recognition with Contrastive Learning and Order-Preserving Optimal Transport
Authors Songpengcheng Xia, Lei Chu, Ling Pei, Jiarui Yang, Wenxian Yu, Robert C. Qiu
可穿戴设备的人类活动识别 HAR 是无处不在的移动计算应用中的可用技术之一。滑动窗口方案被广泛采用，但同时也面临着多类窗口问题。因此，人们越来越关注深度学习方法的联合分割和识别，旨在同时处理 HAR 和时间序列分割问题。然而，获得可穿戴数据序列的完整活动注释是资源密集型或耗时的，而无监督方法的性能较差。为了解决这些挑战，我们提出了一种带有时间戳监督的联合活动分割和识别的新方法，其中每个活动片段只需要一个带注释的样本。然而，稀疏注释的有限信息加剧了识别和分割任务之间的差距，导致模型性能次优。因此，通过类激活图来估计原型，以形成样本到原型对比模块，以实现结构良好的嵌入。此外，利用最佳传输理论，我们的方法生成样本级伪标签，利用时间戳注释之间的未标记数据来进一步提高性能。

iPUNet:Iterative Cross Field Guided Point Cloud Upsampling
Authors Guangshun Wei, Hao Pan, Shaojie Zhuang, Yuanfeng Zhou, Changjian Li
3D扫描设备获取的点云通常稀疏、有噪声且不均匀，导致几何特征丢失。为了促进点云在下游应用中的可用性，给定这样的输入，我们提出了一种基于学习的点上采样方法，即 iPUNet，它以任意比率生成密集且均匀的点，并更好地捕获清晰的特征。为了生成特征感知点，我们引入了交叉字段，这些交叉字段通过自我监督与尖锐的几何特征对齐，以指导点生成。给定跨场定义的帧，我们通过在每个输入点学习局部参数化表面来实现任意比率上采样。学习的表面使用邻近点和 2D 切平面坐标作为输入，并映射到 3D 连续表面，其中可以对输出点的任意比率进行采样。为了解决输入点的不均匀性，在跨场引导上采样的基础上，我们进一步引入了一种迭代策略，通过在每次迭代中将稀疏点移动到所需的连续 3D 表面来细化点分布。只需几次迭代，稀疏点就分布均匀，其对应的稠密样本更加均匀，能够更好地捕捉几何特征。

pose-format: Library for Viewing, Augmenting, and Handling .pose Files
Authors Amit Moryossef, Mathias M ller, Rebecka Fahrni
管理和分析姿势数据是一项复杂的任务，面临着从处理不同的文件结构和数据类型到促进有效的数据操作（例如标准化和增强）等挑战。本文提出了 textttpose format ，这是一个综合工具包，旨在通过提供统一、灵活且易于使用的界面来应对这些挑战。该库包括一种专门的文件格式，封装了各种类型的姿势数据，可容纳多个个体和无限数量的时间帧，从而证明了其对于图像和视频数据的实用性。此外，它还提供与 NumPy、PyTorch 和 TensorFlow 等流行数值库的无缝集成，从而实现强大的机器学习应用程序。通过基准测试，我们证明了我们的 texttt .pose 文件格式比 OpenPose 等流行格式提供了极其优越的性能，并具有独立姿势规范等附加优势。此外，该库还包括在 Python 和浏览器环境中进行数据标准化、增强和易于使用的可视化功能的功能。

A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video Salient Object Detection
Authors Xiaolei Chen, Pengcheng Zhang, Zelong Du, Ishfaq Ahmad
全景视频中的显着目标检测SOD仍处于初步探索阶段。 2D视频SOD方法间接应用于全景视频中显着目标的检测存在许多未解决的挑战，例如检测精度低、模型复杂度高、泛化性能差。为了克服这些障碍，我们设计了层间注意力 ILA 模块、层间权重 ILW 模块和双模态注意力 BMA 模块。基于这些模块，我们提出了一种时空双模混合流网络 STDMMF Net，它利用全景视频的空间流和 SOD 的相应光流。首先，ILA模块计算全景视频连续帧的相邻级别特征之间的注意力，以提高从空间流中提取显着对象特征的准确性。然后，ILW模块量化每个级别的特征中包含的显着目标信息，以提高混合流中每个级别的特征的融合效率。最后，BMA模块提高了STDMMF Net的检测精度。大量的主观和客观实验结果证明，所提出的方法比最先进的SOTA方法表现出更好的检测精度。

VCL Challenges 2023 at ICCV 2023 Technical Report: Bi-level Adaptation Method for Test-time Adaptive Object Detection
Authors Chenyu Lin, Yusheng He, Zhengqing Zang, Chenwei Tang, Tao Wang, Jiancheng Lv
本报告概述了我们团队参与 VCL 挑战 B 持续测试时间适应的情况，重点关注我们方法的技术细节。我们的主要重点是使用双水平适应的测试时间适应，包括图像水平和探测器水平适应。在图像级别，我们采用可调整的基于参数的图像滤波器，而在检测器级别，我们利用可调整的基于参数的均值教师模块。最终，通过利用这些双层适应，我们在 VCL 挑战 B 中的测试集的目标域上实现了显着的 38.3 mAP。值得注意的是，mAP 的最小下降仅为 4.2，整体性能

UniParser: Multi-Human Parsing with Unified Correlation Representation Learning
Authors Jiaming Chu, Lei Jin, Junliang Xing, Jian Zhao
多人解析是一项图像分割任务，需要实例级信息和细粒度类别级信息。然而，先前的研究通常通过单独的分支和不同的输出格式来处理这两类信息，导致框架效率低下且冗余。本文介绍了 UniParser，它在三个关键方面集成了实例级和类别级表示 1 我们提出了一种统一的相关表示学习方法，允许我们的网络学习余弦空间内的实例和类别特征 2 我们统一每个模块的输出形式作为像素级分割结果，同时使用同质标签和辅助损失来监督实例和类别特征，3我们设计了一个联合优化程序来融合实例和类别表示。通过虚拟统一实例级别和类别级别输出，UniParser 规避了手动设计的后处理技术并超越了最先进的方法，在 MHPv2.0 上实现了 49.3 AP，在 CIHP 上实现了 60.4 AP。

LRRU: Long-short Range Recurrent Updating Networks for Depth Completion
Authors Yufei Wang, Bo Li, Ge Zhang, Qi Liu, Tao Gao, Yuchao Dai
现有的基于深度学习的深度补全方法通常采用大量堆叠层来从稀疏输入数据预测密集深度图。尽管这些方法极大地推进了这项任务，但其伴随的巨大计算复杂性阻碍了它们的实际应用。为了更有效地完成深度补全，我们提出了一种新颖的轻量级深度网络框架，即长短程循环更新 LRRU 网络。在不学习复杂特征表示的情况下，LRRU 首先粗略地填充稀疏输入以获得初始稠密深度图，然后通过学习的空间变异核迭代更新它。我们的迭代更新过程是内容自适应且高度灵活的，其中通过共同考虑指导RGB图像和要更新的深度图来学习内核权重，并且动态调整从大到小的内核范围以捕获长到短范围的依赖关系。我们的初始深度图具有粗糙但完整的场景深度信息，这有助于减轻直接从稀疏深度回归密集深度的负担，而我们提出的方法可以有效地将其细化为具有较少可学习参数和推理时间的精确深度图。实验结果表明，我们提出的 LRRU 变体在不同的参数范围内实现了最先进的性能。特别是，LRRU Base 模型在 NYUv2 数据集上的性能优于竞争方法，并且在提交时在 KITTI 深度完成基准上排名第一。

Federated Class-Incremental Learning with Prompting
Authors Jiale Liu, Yu Wei Zhan, Chong Yu Zhang, Xin Luo, Zhen Duo Chen, Yinwei Wei, Xin Shun Xu
随着Web技术的不断发展，使用存储在不同客户端上的数据变得越来越普遍。与此同时，联邦学习由于其模型从分布在各个客户端的数据中学习时能够保护数据隐私的能力而受到广泛关注。然而，大多数现有的工作都假设客户端的数据是固定的。在现实世界中，这种假设很可能不成立，因为数据可能会不断生成，并且也可能会出现新的类。为此，我们重点研究实用且具有挑战性的联邦类增量学习FCIL问题。

Online Adaptive Disparity Estimation for Dynamic Scenes in Structured Light Systems
Authors Rukun Qiao, Hiroshi Kawasaki, Hongbin Zha
近年来，深度神经网络在单目结构光系统动态场景的密集视差估计方面取得了显着进展。然而，当应用于看不见的环境时，它们的性能会显着下降。为了解决这个问题，人们提出了自我监督的在线适应作为弥补这一性能差距的解决方案。与传统的微调过程不同，在线适应执行测试时间优化以使网络适应新领域。因此，在适应过程中实现快速收敛对于获得满意的精度至关重要。在本文中，我们提出了一种基于长序列输入的无监督损失函数。它确保更好的梯度方向和更快的收敛。我们的损失函数是使用多帧模式流设计的，其中包括沿着序列的投影模式的一组稀疏轨迹。我们使用基于过滤器的方法通过置信掩码估计稀疏伪地面实况，该方法指导在线适应过程。

TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in Structured Light System
Authors Rukun Qiao, Hiroshi Kawasaki, Hongbin Zha
我们引入了时间增量视差估计网络 TIDE Net，这是一种基于学习的技术，用于单相机结构光系统中的视差计算。在我们的硬件设置中，静态图案被投影到动态场景上并由单目相机捕获。与大多数以前以帧方式操作的视差估计方法不同，我们的网络以时间增量的方式获取视差图。具体来说，我们利用捕获图像序列上称为模式流的投影模式的变形来对时间信息进行建模。值得注意的是，这种新提出的模式流公式反映了沿极线的视差变化，这是光流的一种特殊形式。提出并实现了针对模式流定制的循环架构 TIDE Net。对于每个传入帧，我们的模型融合当前帧的相关量和由模式流扭曲的前一帧的视差。根据融合特征，TIDE Net 的最后阶段估计剩余视差，而不是像许多以前的方法那样估计完全视差。有趣的是，这种设计在效率和泛化能力方面带来了明显的经验优势。仅使用合成数据进行训练，我们的广泛评估结果 w.r.t.在未见过的真实数据上，准确性和效率指标都显示出比几种 SOTA 模型更优越的性能。

Towards Interpretable Controllability in Object-Centric Learning
Authors Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho Jin Choi, Seon Joo Kim
人们积极探索人工神经网络中的绑定问题，目标是通过符号类实体来理解世界，从而实现人类水平的识别技能。特别是在计算机视觉领域，以对象为中心的学习 OCL 被广泛研究，以通过获取对象表示或槽来更好地理解复杂场景。虽然 OCL 最近的研究在复杂图像或视频方面取得了长足的进步，但对象表示的可解释性和交互性在很大程度上仍然是未知的，在 OCL 领域仍然有希望。在本文中，我们介绍了一种新颖的方法，即带有图像增强的槽位注意力 SlotAug ，以探索利用图像增强策略以自监督方式学习槽位的可解释可控性的可能性。我们还通过引入对时隙的迭代和可逆控制以及两种建议的子方法（辅助身份操纵和时隙一致性损失）来设计可控时隙的可持续性概念。广泛的实证研究和理论验证证实了我们方法的有效性，为对象表示的可解释和可持续控制提供了一种新颖的能力。

SIDE: Self-supervised Intermediate Domain Exploration for Source-free Domain Adaptation
Authors Jiamei Liu, Han Sun, Yizhen Jia, Jie Qin, Huiyu Zhou, Ningzhong Liu
领域适应的目的是在将从源领域学到的知识转移到目标领域时减轻领域转移。由于隐私问题，无源域适应 SFDA（在适应过程中源数据不可用）最近变得非常苛刻且具有挑战性。现有的 SFDA 方法侧重于目标样本的自监督学习或虚拟源数据的重建。前者忽略了源模型中的可转移知识，而后者引入了更多的不确定性。为了解决上述问题，本文提出了自监督中间域探索 SIDE，它有效地弥合了与中间域的域差距，其中样本以自监督的方式循环过滤。首先，我们提出循环中间域过滤 CIDF 来循环选择源域和目标域上分布相似的中间样本。其次，在这些中间样本的帮助下，开发了域间间隙转换 IDGT 模块，以减轻源数据和目标数据之间可能的分布不匹配。最后，我们引入交叉视图一致性学习 CVCL，以保持内在的类可辨别性，同时使模型适应目标域。

Feature Proliferation -- the "Cancer" in StyleGAN and its Treatments
Authors Shuang Song, Yuanbang Liang, Jing Wu, Yu Kun Lai, Yipeng Qin
尽管StyleGAN在图像合成方面取得了成功，但它合成的图像并不总是完美的，众所周知的截断技巧已成为StyleGAN合成高质量图像的标准后处理技术。尽管有效，但人们早就注意到截断技巧往往会降低合成图像的多样性，并不必要地牺牲许多不同的图像特征。为了解决这个问题，在本文中，我们首先深入研究了 StyleGAN 图像合成机制，发现了一个重要现象，即特征增殖，它演示了特定特征如何通过前向传播来再现。然后，我们展示了特征增殖的发生如何导致 StyleGAN 图像伪影。打个比方，我们将其称为StyleGAN中的癌症，因为它具有增殖和恶性的性质。最后，我们提出了一种新颖的特征重新缩放方法，该方法可以识别和调节风险特征以减轻特征扩散。由于我们对特征增殖的发现，所提出的特征重新缩放方法比截断技巧破坏性更小，并且保留了更多有用的图像特征，因为它更细粒度并且在较低级别的特征空间而不是高级潜在空间中工作。实验结果证明了我们的主张的有效性以及所提出的特征重新缩放方法的有效性。我们的代码可以在 https github 上找到。

3D Understanding of Deformable Linear Objects: Datasets and Transferability Benchmark
Authors Bare Luka agar, Tim Hertel, Mingyu Liu, Ekim Yurtsever, ALois C. Knoll
可变形的线性物体在我们的日常生活中广泛存在。即使对于人类来说，从视觉上理解它们也常常具有挑战性，因为同一个物体可能会纠缠在一起，从而看起来完全不同。可变形线性物体的例子包括血管和线束，它们对于人体和车辆等相应系统的功能至关重要。然而，不存在用于研究 3D 可变形线性物体的点云数据集。因此，我们引入两个点云数据集：PointWire 和 PointVessel。我们在所提出的大规模 3D 可变形线性物体基准上评估了最先进的方法。

Image Cropping under Design Constraints
Authors Takumi Nishiyasu, Wataru Shimoda, Yoichi Sato
图像裁剪在图像编辑中对于获得构图增强的图像至关重要。在显示媒体中，图像裁剪是一种自动创建媒体内容的前瞻性技术。然而，媒体内容的图像裁剪通常需要满足各种约束，例如宽高比和用于放置文本或对象的空白区域。我们将此问题称为设计约束下的图像裁剪。为了在设计约束下实现图像裁剪，我们提出了一种基于评分函数的方法，该方法计算裁剪结果的分数是否美观并满足设计约束。我们探索了两种派生方法，基于提案的方法和基于热图的方法，并构建了一个数据集，用于评估所提出的方法在设计约束下的图像裁剪性能。在实验中，我们证明了所提出的方法优于基线，并且我们观察到，在相同的计算成本下，基于提案的方法比基于热图的方法更好，但基于热图的方法通过增加计算成本来获得更好的分数。

A Hybrid Transfer Learning Assisted Decision Support System for Accurate Prediction of Alzheimer Disease
Authors Mahin Khan Mahadi, Abdullah Abdullah, Jamal Uddin, Asif Newaz
阿尔茨海默病 AD 是老年人最常见的长期疾病。近年来，深度学习在医学影像领域开始流行，并取得了很大的成功。它已成为查看医学图像的最有效方式。在检测 AD 方面，深度神经模型比一般机器学习更准确、更有效。我们的研究通过确定四个不同的类别来预测 AD，加权准确度高达 98.91，有助于更全面地了解和检测该疾病。本研究中提出了一种独特的策略，通过集成平均模型和五种不同的迁移学习模型的结合来提高不平衡数据集分类问题的准确性。

Extending Multi-modal Contrastive Representations
Authors Zehan Wang, Ziang Zhang, Luping Liu, Yang Zhao, Haifeng Huang, Tao Jin, Zhou Zhao
三种以上模态的多模态对比表示 MCR 在多模态学习中至关重要。尽管最近的方法取得了令人瞩目的成就，但对大规模、高质量配对数据的高度依赖以及昂贵的培训成本限制了其进一步发展。受最近 C MCR 的启发，本文提出了扩展多模态对比表示 Ex MCR，这是一种训练高效且无配对数据的方法，通过集成现有 MCR 空间的知识，灵活地学习三种以上模态的统一对比表示空间。具体来说，Ex MCR将多个现有MCR对齐到相同的基于MCR中，这可以有效地保留基于MCR的原始语义对齐。此外，我们从训练数据、架构和学习目标的角度全面增强了整个学习管道，以对齐 MCR 空间。通过保留原始模态对齐和增强的空间对齐，Ex MCR 表现出卓越的表示学习性能和出色的模态可扩展性。为了证明 Ex MCR 的有效性，我们分别利用重叠的文本和图像模态，将 CLAP 音频文本和 ULIP 3D 视觉的 MCR 空间对齐到 CLIP 视觉文本中。值得注意的是，在不使用任何配对数据的情况下，Ex MCR 学习了 3D 图像文本音频统一对比表示，并且在视听、3D 图像、音频文本、视觉文本检索和 3D 对象分类任务上实现了最先进的性能。

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation
Authors Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang
最近的文本到图像 T2I 扩散模型在以文本提示作为输入生成高质量图像方面取得了显着进展。然而，这些模型无法传达布局指令指定的适当的空间构成。在这项工作中，我们探讨了具有扩散模型的零样本接地 T2I 生成，即生成与输入布局信息相对应的图像，而无需训练辅助模块或微调扩散模型。我们提出了一种区域和边界 R B 感知的交叉注意力引导方法，在生成过程中逐渐调节扩散模型的注意力图，并协助模型合成图像 1 高保真度，2 与文本输入高度兼容，3 准确解释布局指令。具体来说，我们利用离散采样来弥合连续注意力图和离散布局约束之间的差距，并设计一个区域感知损失来细化扩散过程中的生成布局。我们进一步提出了边界感知损失来增强相应区域内的对象可辨别性。

Re-initialization-free Level Set Method via Molecular Beam Epitaxy Equation Regularization for Image Segmentation
Authors Fanghui Song, Jiebao Sun, Shengzhu Shi, Zhichang Guo, Dazhi Zhang
变分水平集方法因其能够处理复杂的拓扑变化并在演化过程中保持连续性和平滑性而成为图像分割中的有力工具。然而，其演化过程可能不稳定，导致轮廓过度平坦或过度锐化以及分割失败。为了提高演化的准确性和稳定性，我们提出了一种结合分子束外延MBE方程正则化的高阶水平集变分分割方法。该方法利用MBE过程中晶体的生长来限制水平集函数的演化，从而避免演化过程中的重新初始化，调节分段曲线的平滑度。它也适用于强度不均匀的噪声图像，这是图像分割中的一个挑战。为了求解变分模型，我们推导了梯度流并设计了标量辅助变量SAV方案，结合快速傅里叶变换FFT，与传统的半隐式和半显式方案相比，可以显着提高计算效率。数值实验表明，该方法能够生成平滑的分割曲线，保留精细的分割目标，并获得鲁棒的小物体分割结果。

Rank-DETR for High Quality Object Detection
Authors Yifan Pu, Weicong Liang, Yiduo Hao, Yuhui Yuan, Yukang Yang, Chao Zhang, Han Hu, Gao Huang
现代检测转换器 DETR 使用一组对象查询来预测边界框列表，按分类置信度分数对它们进行排序，并选择排名最高的预测作为给定输入图像的最终检测结果。高性能的目标检测器需要对边界框预测进行准确的排名。对于基于 DETR 的检测器，由于分类分数和定位精度之间的不一致，排名靠前的边界框的定位质量较差，从而阻碍了高质量检测器的构建。在这项工作中，我们通过提出一系列面向等级的设计（统称为Rank DETR），介绍了一种简单且高性能的基于 DETR 的目标检测器。我们的主要贡献包括：i 一种面向排名的架构设计，可以促进积极预测并抑制消极预测，以确保较低的误报率；以及 ii 一种面向排名的损失函数和匹配成本设计，在排名过程中优先考虑更准确的定位精度预测。在高 IoU 阈值下提升 AP。我们应用我们的方法来改进最近的 SOTA 方法，例如 H DETR 和 DINO DETR，并在使用不同的骨干网（例如 ResNet 50、Swin T 和 Swin L）时报告强大的 COCO 对象检测结果，证明了我们方法的有效性。

Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous Driving
Authors Feng Jiang, Chaoping Tu, Gang Zhang, Jun Li, Hanqing Huang, Junyu Lin, Di Feng, Jian Pu
LiDAR 和摄像头是多模态 3D 语义分割的两个关键传感器，应该有效、稳健地融合，以保证各种现实场景中的安全性。然而，现有的多模态方法面临两个关键挑战：1 难以高效部署和实时执行；2 在激光雷达和相机之间的弱校准下性能急剧下降。为了应对这些挑战，我们提出了 CPGNet LCF，这是一种新的多模态融合框架，扩展了仅 LiDAR 的 CPGNet。 CPGNet LCF继承了CPGNet易于部署和实时的能力，解决了第一个挑战。对于第二个挑战，我们在训练过程中引入了一种新颖的弱校准知识蒸馏策略，以提高针对弱校准的鲁棒性。 CPGNet LCF 在 nuScenes 和 SemanticKITTI 基准测试中实现了最先进的性能。值得注意的是，它可以轻松部署为使用 TensorRT TF16 模式在单个 Tesla V100 GPU 上以每帧 20 毫秒的速度运行。

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models
Authors Dongsheng Jiang, Yuchen Liu, Songlin Liu, Xiaopeng Zhang, Jin Li, Hongkai Xiong, Qi Tian
多模态大型语言模型 MLLM 通过整合视觉感知接口，在扩展大型语言模型 LLM 的功能方面取得了重大进展。尽管出现了令人兴奋的应用程序以及各种指令调整数据的可用性，但现有方法通常依赖于 CLIP 或其变体作为视觉分支，并且仅从深层提取特征。然而，这些方法缺乏对 MLLM 中视觉编码器的全面分析。在本文中，我们对 MLLM 中不同视觉编码器的有效性进行了广泛的研究。我们的研究结果表明，CLIP 的浅层特征为细粒度任务（例如基础和区域理解）提供了特殊的优势。令人惊讶的是，仅视觉模型 DINO（未经过文本图像对齐预训练）显示出作为 MLLM 内的视觉分支的良好性能。通过简单地为其配备一个 MLP 层进行对齐，DINO 在细粒度的相关感知任务中超越了 CLIP。基于这些观察，我们提出了一种简单而有效的特征合并策略，名为 COMM，它将 CLIP 和 DINO 与多级特征合并相结合，以增强 MLLM 的视觉能力。我们通过对各种基准的综合实验来评估 COMM，包括图像字幕、视觉问答、视觉基础和物体幻觉。实验结果证明了 COMM 与现有方法相比具有优越的性能，展示了其在 MLLM 中增强的视觉功能。

SAM-guided Unsupervised Domain Adaptation for 3D Segmentation
Authors Xidong Peng, Runnan Chen, Feng Qiao, Lingdong Kong, Youquan Liu, Tai Wang, Xinge Zhu, Yuexin Ma
3D 分割任务中的无监督域适应 UDA 提出了巨大的挑战，这主要源于点云数据的稀疏性和无序性。特别是对于 LiDAR 点云，在不同的捕获场景、波动的天气条件以及使用的不同 LiDAR 设备阵列中，域差异变得明显。虽然以前的 UDA 方法通常试图通过对齐源域和目标域之间的特征来缩小这种差距，但由于域变化很大，这种方法在应用于 3D 分割时存在不足。受到视觉基础模型 SAM 在图像分割领域所展现出的卓越泛化能力的启发，我们的方法利用 SAM 中嵌入的丰富常识来统一不同 3D 域的特征表示，并进一步解决 3D 域适应问题。具体来说，我们利用与点云相关的相应图像来促进知识转移，并提出了一种创新的混合特征增强方法，该方法显着增强了 3D 特征空间和 SAM 特征空间之间的对齐，在场景和实例级别上运行。

Incremental Object Detection with CLIP
Authors Yupeng He, Ziyue Huang, Qingjie Liu, Yunhong Wang
在增量检测任务中，与增量分类任务不同，由于图像在多个连续学习阶段可能具有不同标记的边界框，因此存在数据模糊性。这种现象通常会损害模型学习新课程的能力。然而，现有工作中较少考虑模型的前向兼容性，这阻碍了模型对增量学习的适用性。为了克服这个障碍，我们建议使用诸如 CLIP 之类的语言视觉模型来为不同的类集生成文本特征嵌入，从而在全局范围内增强特征空间。然后，我们使用广泛的类来替换早期学习阶段不可用的新类，以模拟实际的增量场景。最后，我们使用 CLIP 图像编码器来识别提案中的潜在对象，这些对象被模型分类为背景。我们将这些提案的背景标签修改为已知类别，并将框添加到训练集中，以缓解数据模糊问题。

DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided Image Editing
Authors Yueming Lyu, Kang Zhao, Bo Peng, Yue Jiang, Yingya Zhang, Jing Dong
文本引导图像编辑面临着训练和推理灵活性的重大挑战。许多文献收集大量带注释的图像文本对来从头开始训练文本条件生成模型，这是昂贵且低效的。之后，提出了一些利用预先训练的视觉语言模型的方法来避免数据收集，但它们也受到每个文本提示优化或推理时间超参数调整的限制。为了解决这些问题，我们研究并确定了一个特定的空间，称为 CLIP DeltaSpace，其中两个图像的 CLIP 视觉特征差异在语义上与其相应文本描述的 CLIP 文本特征差异一致。基于 DeltaSpace，我们提出了一种名为 DeltaEdit 的新颖框架，该框架在训练阶段将 CLIP 视觉特征差异映射到生成模型的潜在空间方向，并在推理阶段根据 CLIP 文本特征差异预测潜在空间方向。而这样的设计赋予了 DeltaEdit 两大优势 1 无文本训练 2 泛化到各种文本提示进行零样本推理。大量实验验证了 DeltaEdit 与不同生成模型（包括 GAN 模型和扩散模型）在实现灵活的文本引导图像编辑方面的有效性和多功能性。

Implicit Shape and Appearance Priors for Few-Shot Full Head Reconstruction
Authors Pol Caselles, Eduard Ramon, Jaime Garcia, Gil Triginer, Francesc Moreno Noguer
采用基于坐标的神经表示的学习技术的最新进展在多视图 3D 重建任务中取得了显着的成果。然而，这些方法通常需要大量的输入视图（通常是数十个）和计算密集型优化程序才能实现其有效性。在本文中，我们专门针对少镜头全 3D 头部重建问题解决了这些限制。我们通过将概率形状和外观先验合并到基于坐标的表示中来实现这一点，在仅处理少量输入图像（甚至低至单个图像）时实现更快的收敛和改进的泛化。在测试过程中，我们利用这一点来指导使用可微渲染器的有符号距离函数的拟合过程。通过将统计先验与可并行光线追踪和动态缓存策略相结合，我们实现了一种高效、准确的方法来进行少镜头全 3D 头部重建。此外，我们扩展了 H3DS 数据集，该数据集现在包含 60 个高分辨率 3D 全头部扫描及其相应的姿势图像和掩模，我们将其用于评估目的。

Investigating the Robustness and Properties of Detection Transformers (DETR) Toward Difficult Images
Authors Zhao Ning Zou, Yuhang Zhang, Robert Wijaya
基于 Transformer 的物体检测器 DETR 在机器视觉任务中（最终在物体检测方面）表现出了显着的性能。该检测器基于自注意力机制以及变压器编码器解码器架构来捕获图像中的全局上下文。要解决的关键问题是该模型架构如何处理不同的图像干扰，例如遮挡和对抗性扰动。我们通过不同的实验测量 DETR 的性能并使用基于卷积神经网络 CNN 的检测器（如 YOLO 和 Faster RCNN）对网络进行基准测试来研究这个问题。我们发现 DETR 在抵抗遮挡图像信息丢失的干扰方面表现良好。尽管如此，我们发现图像上的对抗性贴纸要求网络生成一组新的不必要的键、查询和值，这在大多数情况下会导致网络的误导。 DETR 在图像损坏基准测试中的表现也比 YOLOv5 差。

PU-Ray: Point Cloud Upsampling via Ray Marching on Implicit Surface
Authors Sangwon Lim, Karim El Basyouny, Yee Hong Yang
虽然基于深度学习的点云上采样方法的最新进展改善了自动驾驶系统的输入，但它们仍然受到端到端学习导致的更密集点生成的不确定性的影响。例如，由于模型的训练目标模糊，其性能取决于输入和地面实况的点分布。这会导致合成和真实扫描点云之间的域依赖性问题以及大量模型大小和数据集要求的问题。此外，许多现有方法以固定的缩放率对点云进行上采样，这使得它们不灵活且计算冗余。本文通过提出一种基于射线的任意速率上采样方法来解决上述问题，其中对每个查询射线进行深度预测。该方法模拟光线行进算法，通过隐式表面学习实现更精确、稳定的光线深度预测。基于规则的中点查询采样方法可以实现均匀的输出点分布，而不需要使用 Chamfer 距离损失函数进行模型训练，这可能会对训练数据集表现出偏差。通过输入点云中准确的地面事实，自我监督学习成为可能。结果证明了该方法在计算资源和训练数据有限的情况下跨不同领域和训练场景的多功能性。

Development and Validation of a Deep Learning-Based Microsatellite Instability Predictor from Prostate Cancer Whole-Slide Images
Authors Qiyuan Hu, Abbas A. Rizvi, Geoffery Schau, Kshitij Ingale, Yoni Muller, Rachel Baits, Sebastian Pretzer, A cha BenTaieb, Abigail Gordhamer, Roberto Nussenzveig, Adam Cole, Matthew O. Leavitt, Rohan P. Joshi, Nike Beaubier, Martin C. Stumpe, Kunal Nagpal
微卫星不稳定性高 MSI H 是免疫检查点抑制剂治疗的肿瘤不可知生物标志物。然而，MSI 状态并未在前列腺癌中进行常规检测，部分原因是患病率较低且检测成本较低。因此，通过苏木精和伊红 HE 染色的全玻片图像 WSI 预测 MSI 状态可以识别出最有可能受益于验证性检测并有资格接受免疫治疗的前列腺癌患者。对转诊至我们机构的连续前列腺癌患者的已确定记录的前列腺活检和手术切除进行了分析。他们的 MSI 状态由下一代测序确定。截止日期之前的患者被分为算法开发集 n 4015，MSI H 1.8 和配对验证集 n 173，MSI H 19.7，其中包含每个样本的两个连续切片，一个在内部染色和扫描，另一个在外部染色和扫描地点。截止日期后的患者形成时间验证集n 1350，MSI H 2.3。基于注意力的多实例学习模型经过训练，可以根据 H E WSI 预测 MSI H。在内部准备的、外部准备的和临时验证集上，MSI H 预测器的受试者工作特征曲线下面积值分别为 0.78 95 CI 0.69 0.86、0.72 95 CI 0.63 0.81 和 0.72 95 CI 0.62 0.82。虽然 MSI H 状态与格里森评分显着相关，但该模型在每个格里森评分亚组内仍然具有预测性。总之，我们在大量现实世界的常规 H E 载玻片队列上开发并验证了基于 AI 的 MSI H 诊断模型，该模型有效地推广到外部染色和扫描样本以及时间独立的验证队列。

A Benchmarking Protocol for SAR Colorization: From Regression to Deep Learning Approaches
Authors Kangqing Shen, Gemine Vivone, Xiaoyuan Yang, Simone Lolli, Michael Schmitt
合成孔径雷达SAR图像广泛应用于遥感领域。由于 SAR 图像固有的散斑噪声和灰度性质，解释 SAR 图像可能具有挑战性。为了解决这个问题，SAR彩色化作为一个研究方向应运而生，对灰度SAR图像进行着色，同时保留原始的空间信息和辐射信息。然而，这一研究领域仍处于早期阶段，许多局限性也凸显出来。在本文中，我们提出了基于监督学习的 SAR 彩色化方法的完整研究路线。我们的方法包括生成合成彩色 SAR 图像的协议、多个基线以及基于用于 SAR 彩色化的条件生成对抗网络 cGAN 的有效方法。我们还针对当前问题提出了数值评估指标。据我们所知，这是首次尝试提出 SAR 彩色化研究路线，其中包括协议、基准和完整的性能评估。我们的广泛测试证明了我们提出的基于 cGAN 的 SAR 彩色化网络的有效性。

Fed-Safe: Securing Federated Learning in Healthcare Against Adversarial Attacks
Authors Erfan Darzi, Nanna M. Sijtsema, P.M.A van Ooijen
本文探讨了医学图像分析中联邦学习应用的安全问题。目前以稳健性为导向的方法，如对抗性训练、安全聚合和同态加密，通常会面临隐私泄露的风险。其核心目标是保护网络免受潜在的隐私侵犯，同时保持模型的稳健性以防止对抗性操纵。我们证明，结合基于联邦设置中的隐私保证的分布式噪声，可以开发出也满足联邦隐私标准的对抗性鲁棒模型。我们对癌症成像中的不同攻击场景、参数和用例进行了全面评估，重点关注病理学、脑膜瘤和神经胶质瘤。

SSG2: A new modelling paradigm for semantic segmentation
Authors Foivos I. Diakogiannis, Suzanne Furby, Peter Caccetta, Xiaoliang Wu, Rodrigo Ibata, Ondrej Hlinka, John Taylor
语义分割中最先进的模型主要对单个静态图像进行操作，生成相应的分割掩模。这种一次性方法几乎没有留下纠错的空间，因为模型缺乏整合多个观察结果以提高准确性的能力。受到语义变化检测工作的启发，我们通过引入一种方法来解决这一限制，该方法利用为每个静态输入图像生成的一系列可观察值。通过添加这个时间维度，我们利用序列中连续观测之间的强信号相关性来降低错误率。我们的框架被称为 SSG2 语义分割第二代，采用双编码器、单解码器基础网络，并通过序列模型进行增强。基础模型学习预测双输入图像中标签的交集、并集和差异集。给定固定的目标输入图像和一组支持图像，序列模型通过合成每个序列步骤的部分视图并滤除噪声来构建目标的预测掩模。我们在三个不同的数据集 UrbanMonitor 中评估了 SSG2，其中包含来自澳大利亚达尔文的具有五个光谱带和 0.2m 空间分辨率的正射影像图块 ISPRS Potsdam，其中包括具有多个光谱带和 5cm 地面采样距离的真实正射影像以及 ISIC2018（一个专注于医疗数据集）皮肤病变分割，特别是黑色素瘤。 SSG2 模型在最初的几十个 epoch 内表现出快速收敛，并且在相同数量的梯度更新下明显优于 UNet 等基线模型。然而，时间维度的添加会导致内存占用增加。

Multimodal Large Language Model for Visual Navigation
Authors Yao Hung Hubert Tsai, Vansh Dhar, Jialu Li, Bowen Zhang, Jian Zhang
最近使用大型语言模型实现视觉导航的努力主要集中在开发复杂的提示系统。这些系统将指令、观察结果和历史记录合并到大量文本提示中，然后与预先训练的大型语言模型相结合以促进视觉导航。相比之下，我们的方法旨在微调用于视觉导航的大型语言模型，而无需进行大量的提示工程。我们的设计涉及一个简单的文本提示、当前观察结果和一个历史收集器模型，该模型从以前的观察结果中收集信息作为输入。对于输出，我们的设计提供了代理在导航期间可以采取的可能操作的概率分布。我们使用来自 Habitat Matterport 3D 数据集 HM3D 的人体演示和碰撞信号来训练我们的模型。

Histogram- and Diffusion-Based Medical Out-of-Distribution Detection
Authors Evi M.C. Huijben, Sina Amirrajab, Josien P.W. Pluim
分布式 OOD 检测对于人工智能算法的安全性和可靠性至关重要，尤其是在医疗领域。在 2023 年医学 OOD MOOD 检测挑战的背景下，我们提出了一种结合了基于直方图的方法和基于扩散的方法的管道。基于直方图的方法旨在准确检测挑战玩具示例中的同质异常，例如具有恒定强度值的斑点。基于扩散的方法基于无监督异常检测的最新方法之一，称为 DDPM OOD。我们探索了这种方法，并提出了广泛的后处理步骤，用于对挑战赛提供的脑 MRI 和腹部 CT 数据进行像素级和样本级异常检测。我们的结果表明，所提出的 DDPM 方法对模糊和偏置场样本敏感，但面临解剖变形、黑片和交换补丁的挑战。

Defect Analysis of 3D Printed Cylinder Object Using Transfer Learning Approaches
Authors Md Manjurul Ahsan, Shivakumar Raman, Zahed Siddique
增材制造增材制造正在引起医疗保健、航空航天和汽车等各个行业的关注。然而，在增材制造过程的早期识别缺陷可以降低生产成本并提高生产率，这是一个关键挑战。本研究探讨了机器学习 ML 方法（特别是迁移学习 TL 模型）在 3D 打印圆柱体缺陷检测方面的有效性。使用 VGG16、VGG19、ResNet50、ResNet101、InceptionResNetV2 和 MobileNetV2 等模型分析圆柱体图像。使用准确度、精确度、召回率和 F1 分数指标比较两个数据集的性能。在第一项研究中，VGG16、InceptionResNetV2 和 MobileNetV2 取得了满分。相比之下，ResNet50 的性能最低，平均 F1 得分为 0.32。同样，在第二项研究中，MobileNetV2 正确分类了所有实例，而 ResNet50 则面临更多误报和更少的真报问题，导致 F1 分数为 0.75。总体而言，研究结果表明某些 TL 模型（例如 MobileNetV2）可以为 AM 缺陷分类提供高精度，尽管性能因算法而异。结果为 3D 打印过程中可靠的自动化缺陷分析的模型优化和集成需求提供了见解。

An Unbiased Look at Datasets for Visuo-Motor Pre-Training
Authors Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta
视觉表示学习为机器人技术带来了巨大的希望，但由于机器人数据集的稀缺性和同质性而受到严重阻碍。最近的工作通过预训练大规模但域外数据的视觉表示来解决这个问题，例如以自我为中心的交互视频，然后将它们转移到目标机器人任务。虽然该领域主要致力于开发更好的预训练算法，但我们发现数据集的选择对于该范式的成功同样重要。毕竟，表示只能学习预训练数据集中存在的结构或先验。为此，我们将重点转向算法，而是对机器人预训练进行以数据集为中心的分析。我们的研究结果对该领域的一些常识提出了质疑。我们观察到，像 ImageNet、Kinetics 和 100 Days of Hands 这样的传统视觉数据集对于视觉运动表征学习而言是极具竞争力的选择，而且预训练数据集的图像分布比其大小更重要。

Ultrasound Image Segmentation of Thyroid Nodule via Latent Semantic Feature Co-Registration
Authors Xuewei Li, Yaqiao Zhu, Jie Gao, Xi Wei, Ruixuan Zhang, Yuan Tian, Mei Yu
甲状腺超声成像中结节的分割在甲状腺癌的检测和治疗中起着至关重要的作用。然而，由于不同医院的扫描仪供应商和成像协议的多样性，已经在医学图像分割领域表现出专家级精度的自动分割模型在使用时发现其泛化性能较弱，导致精度下降。应用于临床现实环境。为了解决这个问题，本文提出了 ASTN，这是一种通过新型协同配准网络实现的甲状腺结节分割框架。该框架通过从图谱和目标图像中提取潜在语义信息，并利用深度特征完成甲状腺超声图像中结节的协同配准，可以保证解剖结构的完整性，并减少由于整体差异而对分割的影响。不同设备造成的图像。此外，本文还提供了一种图集选择算法来减轻协同配准的难度。

Unseen Image Synthesis with Diffusion Models
Authors Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan
虽然生成领域的当前趋势是向更大的模型和更多的广义域表示训练数据扩展，但我们在这项工作中走的是相反的方向，通过合成看不见的域图像而无需额外的训练。我们通过在单域数据集上使用预训练和冻结的去噪扩散概率模型 DDPM 进行潜在采样和几何优化来实现这一点。我们的主要观察结果是，即使仅在单域图像上进行预训练的 DDPM 也已经具备足够的表示能力，可以根据双向确定性扩散和去噪轨迹从反向潜在编码重建任意图像。这促使我们研究来自去噪链潜在空间中未见图像域的分布外 OOD 样本的统计和几何行为。值得注意的是，我们从理论上和经验上表明，反向 OOD 样本还建立了与中间潜在空间中的原始域内 ID 样本可区分的高斯分布，这使我们能够直接从它们中进行采样。未见子空间的几何域特定和模型相关信息（例如，样本距离和角度）用于进一步优化来自估计高斯先验的采样 OOD 潜在编码。

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA
Authors Sheng Zhou, Dan Guo, Jia Li, Xun Yang, Meng Wang
基于文本的视觉问答 TextVQA 面临着避免冗余关系推理的重大挑战。具体来说，大量的检测对象和光学字符识别 OCR 令牌会产生丰富的视觉关系。现有的作品在答案预测时考虑了所有视觉关系。然而，存在三个观察结果 1 图像中的单个主题可以很容易地检测为具有不同边界框的多个对象，这些对象被视为重复对象。这些重复对象之间的关联对于答案推理来说是多余的 2 在图像中检测到的两个空间遥远的 OCR 标记通常对答案推理具有弱语义依赖关系 3 附近对象和标记的共存可能表明预测答案的重要视觉线索。我们不是利用所有这些来预测答案，而是努力识别最重要的联系或消除冗余的联系。我们提出了一种稀疏空间图网络 SSGN，它为此任务引入了空间感知关系修剪技术。作为关系测量的空间因素，我们采用空间距离、几何尺寸、重叠面积和 DIoU 进行空间感知剪枝。我们考虑图学习对象对象、OCR OCR 标记和对象 OCR 标记关系的三种视觉关系。 SSGN 是一种渐进式图学习架构，它验证相关对象令牌稀疏图中的关键关系，然后验证各自基于对象的稀疏图和基于令牌的稀疏图中的关键关系。 TextVQA 和 ST VQA 数据集上的实验结果表明 SSGN 取得了良好的性能。

Physics-guided Noise Neural Proxy for Low-light Raw Image Denoising
Authors Hansen Feng, Lizhi Wang, Yiqi Huang, Yuzhi Wang, Hua Huang
低光原始图像去噪在手机摄影中起着至关重要的作用，基于学习的方法已成为主流方法。使用合成数据训练基于学习的方法成为配对真实数据的有效且实用的替代方案。然而，合成数据的质量本质上受到噪声模型的低精度限制，这降低了低光原始图像去噪的性能。在本文中，我们开发了一种用于精确噪声建模的新颖框架，该框架从暗帧中学习物理引导噪声神经代理 PNNP。 PNNP集成了物理引导噪声去耦PND、物理引导代理模型PPM和面向可微分分布的损失DDL这三种有效技术。 PND将暗帧解耦为不同的分量，并以灵活的方式处理不同级别的噪声，从而降低了噪声神经代理的复杂性。 PPM 结合了物理先验来有效地约束生成的噪声，从而提高了噪声神经代理的准确性。 DDL 为噪声建模提供了明确且可靠的监督，从而提高了噪声神经代理的精度。

Training and Predicting Visual Error for Real-Time Applications
Authors Jo o Lib rio Cardoso, Bernhard Kerbl, Lei Yang, Yury Uralsky, Michael Wimmer
视觉误差度量在感知图像相似性的量化中发挥着基础作用。最近，它们在实时应用程序中的用例已经出现，例如内容自适应着色和着色重用，以提高性能和效率。已经建立了广泛的不同指标，其中最复杂的指标能够捕获人类视觉系统的感知特征。然而，它们的复杂性、计算费用以及对参考图像进行比较的依赖阻碍了它们的实时广泛使用，从而限制了此类应用程序仅使用最简单的可用指标。在这项工作中，我们探索了卷积神经网络在不需要参考或渲染图像的情况下预测各种视觉指标的能力。具体来说，我们训练和部署神经网络来估计由于重复使用着色或使用降低的着色率而导致的视觉误差。生成的模型解释了 70 90 的方差，同时计算时间加快了一个数量级。我们的解决方案将大多数最先进的延迟着色管道中容易获得的图像空间信息与先前帧的重投影相结合，以实现对视觉误差的充分估计，即使在以前未见过的区域中也是如此。我们描述了合适的卷积网络架构以及训练数据准备的注意事项。我们展示了我们的网络在实时应用程序中以交互速率预测复杂错误指标的能力，该应用程序在延迟管道中实现了内容自适应着色。

DSG: An End-to-End Document Structure Generator
Authors Johannes Rausch, Gentiana Rashiti, Maxim Gusev, Ce Zhang, Stefan Feuerriegel
工业、研究和公共部门的信息广泛存储为渲染文档，例如 PDF 文件、扫描件。因此，为了实现下游任务，需要将渲染的文档映射到结构化分层格式的系统。然而，用于此任务的现有系统受到启发法的限制，并且不可进行端到端的训练。在这项工作中，我们介绍了文档结构生成器 DSG，这是一种完全端到端可训练的文档解析新颖系统。 DSG 结合了一个深度神经网络，用于解析文档中的实体，例如图形、文本块、标题等，以及捕获实体之间的序列和嵌套结构的关系。与依赖启发式的现有系统不同，我们的 DSG 接受端到端训练，使其对于现实世界的应用而言有效且灵活。我们进一步贡献了一个名为 E periodica 的新的大规模数据集，其中包含具有复杂文档结构的现实世界杂志以供评估。我们的结果表明，我们的 DSG 优于商业 OCR 工具，最重要的是，实现了最先进的性能。

Faster 3D cardiac CT segmentation with Vision Transformers
Authors Lee Jollans, Mariana Bustamante, Lilian Henriksson, Anders Persson, Tino Ebbers
心脏的准确分割对于个性化血流模拟和手术干预计划至关重要。图像识别领域的最新进展是 Vision Transformer ViT，它扩展了视野以涵盖全局图像上下文的更大部分。我们针对三维体积输入调整了 ViT。使用了 39 名患者的心脏计算机断层扫描 CT 体积，最多有 20 个代表完整心动周期的时间点。我们的网络包含修改后的 ResNet50 块和 ViT 块，并采用带有跳跃连接的级联上采样。尽管模型复杂性增加，但我们的混合 Transformer Residual U Net 框架（称为 TRUNet）的收敛时间明显少于残差 U Net，同时提供左心室、左心房、左心耳、升主动脉和肺静脉的类似或更好的分割。与残差 U Net 相比，TRUNet 提供更精确的血管边界分割，并更好地捕获心脏的整体解剖结构，这一点已通过不存在错误分割体素的无关簇得到证实。在性能和训练速度方面，TRUNet 超过了常用的分割架构 U Net，使其成为医学成像中 3D 语义分割任务的有前途的工具。

Making Multimodal Generation Easier: When Diffusion Models Meet LLMs
Authors Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao Ming Wu
我们推出 EasyGen，这是一种高效模型，旨在通过利用扩散模型和大型语言模型法学硕士的功能来增强多模式理解和生成。现有的多模态模型主要依赖于 CLIP 或 ImageBind 等编码器，并且需要大量的训练数据来弥合模态之间的差距，而 EasyGen 与主要依赖于 CLIP 或 ImageBind 等编码器的现有多模态模型不同，EasyGen 建立在名为 BiDiffuser 的双向条件扩散模型之上，该模型可促进模态之间更有效的交互。 EasyGen 通过简单的投影层集成 BiDiffuser 和 LLM 来处理图像到文本的生成。与大多数仅限于生成文本响应的现有多模态模型不同，EasyGen 还可以通过利用 LLM 创建文本描述来促进文本到图像的生成，BiDiffuser 可以解释文本描述以生成适当的视觉响应。大量的定量和定性实验证明了 EasyGen 的有效性，其训练可以在实验室环境中轻松实现。

Scalarization for Multi-Task and Multi-Domain Learning at Scale
Authors Amelie Royer, Tijmen Blankevoort, Babak Ehteshami Bejnordi
在多个输入域和/或输出任务上训练单个模型可以将来自多个源的信息压缩到统一的主干中，从而提高模型效率。它还可以实现跨任务领域的潜在积极知识转移，从而提高培训的准确性和数据效率。然而，优化此类网络是一个挑战，特别是由于不同任务或领域之间的差异，尽管多年来提出了几种假设和解决方案，但最近的工作表明，统一的标量化训练，即简单地最小化任务损失的平均值，与成本更高的 SotA 优化方法相比，其性能达到了同等水平。这就提出了我们如何理解多任务和多域网络的训练动态的问题。在这项工作中，我们首先设计了多领域和多任务学习的大规模统一分析，以更好地理解不同任务领域组合和模型大小之间的标量化动态。

Self supervised convolutional kernel based handcrafted feature harmonization: Enhanced left ventricle hypertension disease phenotyping on echocardiography
Authors Jina Lee, Youngtaek Hong, Dawun Jeong, Yeonggul Jang, Sihyeon Jeong, Taekgeun Jung, Yeonyee E. Yoon, Inki Moon, Seung Ah Lee, Hyuk Jae Chang
放射组学是一种医学成像技术，从图像中提取手工制作的定量特征来预测疾病。这些特征的协调确保了跨各种成像设备和协议提取一致的特征。协调方法包括标准化成像协议、统计调整和评估特征稳健性。左心室肥厚 LVH 和高血压心脏病 HHD 等心肌疾病可通过超声心动图诊断，但可变的成像设置带来了挑战。在这种情况下，协调技术对于将手工特征应用于疾病诊断至关重要。自监督学习 SSL 增强了有限数据集中的数据理解并适应不同的数据设置。 ConvNeXt V2 将卷积层集成到 SSL 中，在各种任务中展现出卓越的性能。本研究重点关注 SSL 中的卷积滤波器，使用它们作为预处理，将图像转换为特征图，以实现手工特征协调。

Two-Stage Deep Learning Framework for Quality Assessment of Left Atrial Late Gadolinium Enhanced MRI Images
Authors K M Arefeen Sultan, Benjamin Orkild, Alan Morris, Eugene Kholmovski, Erik Bieging, Eugene Kwan, Ravi Ranjan, Ed DiBella, Shireen Elhabian
房颤患者左心房纤维化的准确评估依赖于高质量的 3D 晚期钆增强 LGE MRI 图像。然而，由于患者运动、呼吸模式变化或脉冲序列参数的次优选择，获得此类图像具有挑战性。 LGE MRI 图像诊断质量的自动评估具有临床意义，因为它可以提高诊断准确性、提高效率、确保标准化，并通过提供可靠且高质量的 LGE MRI 扫描进行纤维化量化和治疗计划，从而有助于改善患者治疗结果。为了解决这个问题，我们提出了一种用于自动化 LGE MRI 图像诊断质量评估的两阶段深度学习方法。该方法包括一个关注相关区域的左心房探测器和一个评估诊断质量的深度网络。我们探索两种训练策略：多任务学习和使用对比学习的预训练，以克服医学成像中有限的注释数据。

Intelligent Scoliosis Screening and Diagnosis: A Survey
Authors Zhang Zhenlin, Pu Lixin, Li Ang, Zhang Jun, Li Xianjie, Fan Jipeng
脊柱侧凸是一种三维脊柱畸形，可能导致胸椎畸形、骨盆倾斜等形态异常。严重的患者可能会出现神经损伤和泌尿系统异常。目前，我国中小学脊柱侧弯患者已超过500万，发病率约为3～5，且逐年增长。因此，脊柱侧弯的研究具有重要的临床价值。本文系统介绍了计算机辅助脊柱侧凸筛查和诊断，并分析了当前问题领域中不同算法模型的优点和局限性。

AcTExplore: Active Tactile Exploration on Unknown Objects
Authors Amir Hossein Shahidzadeh, Seong Jong Yoo, Pavan Mantripragada, Chahat Deep Singh, Cornelia Ferm ller, Yiannis Aloimonos
触觉探索在理解抓取和操纵等基本机器人任务的对象结构方面发挥着至关重要的作用。然而，使用触觉传感器有效地探索此类物体具有挑战性，这主要是由于大规模的未知环境和这些传感器的传感覆盖范围有限。为此，我们提出了 AcTExplore，一种由强化学习驱动的主动触觉探索方法，用于大规模物体重建，可在有限的步骤中自动探索物体表面。通过充分的探索，我们的算法逐渐收集触觉数据并重建对象的 3D 形状，这可以作为更高级别下游任务的表示。

BrainVoxGen: Deep learning framework for synthesis of Ultrasound to MRI
Authors Shubham Singh, Dr. Mrunal Bewoor, Ammar Ranapurwala, Satyam Rai, Sheetal Patil
该研究提出了一个深度学习框架，旨在利用 Pix2Pix GAN 模型从大脑的三维超声图像合成 3D MRI 体积。该过程涉及将 3D 体积的超声波输入 UNET 发生器和斑块鉴别器，生成相应的 3D 体积的 MRI。使用应用于 3D 超声和 MRI 图像数据集的鉴别器和生成器上的损失来评估模型性能。结果表明，合成的 MRI 图像与预期结果具有一定的相似性。尽管存在与数据集大小、计算资源和技术复杂性相关的挑战，该方法成功生成了具有令人满意的相似性分数的 MRI 体积，旨在作为进一步研究的基线。它强调了基于深度学习的体积合成技术在超声到 MRI 转换方面的潜力，展示了它们在医疗应用中的可行性。

Domain Generalization for Medical Image Analysis: A Survey
Authors Jee Seok Yoon, Kwanseok Oh, Yooseung Shin, Maciej A. Mazurowski, Heung Il Suk
医学图像分析 MedIA 已成为医学和医疗保健领域的重要工具，有助于疾病诊断、预后和治疗计划，而深度学习 DL 的最新成功为其进步做出了重大贡献。然而，MediA 的深度学习模型在现实世界中部署仍然具有挑战性，在训练和测试样本之间的分布差距（称为分布转移问题）下无法泛化。研究人员致力于开发各种深度学习方法，以适应未知和分布外的数据分布并稳健地执行。本文全面回顾了专门为 MedIA 定制的领域泛化研究。我们提供领域泛化技术如何在更广泛的 MedIA 系统中交互的整体视图，超越方法论来考虑对整个 MedIA 工作流程的操作影响。具体来说，我们将领域泛化方法分为数据级别、特征级别、模型级别和分析级别方法。我们展示了如何在配备深度学习的 MedIA 工作流程的各个阶段使用这些方法，从数据采集到模型预测和分析。

State of the Art on Diffusion Models for Visual Computing
Authors Ryan Po, Wang Yifan, Vladislav Golyanik, Kfir Aberman, Jonathan T. Barron, Amit H. Bermano, Eric Ryan Chan, Tali Dekel, Aleksander Holynski, Angjoo Kanazawa, C. Karen Liu, Lingjie Liu, Ben Mildenhall, Matthias Nie ner, Bj rn Ommer, Christian Theobalt, Peter Wonka, Gordon Wetzstein
由于生成人工智能AI的出现，视觉计算领域正在迅速发展，它为图像、视频和3D场景的生成、编辑和重建释放了前所未有的能力。在这些领域，扩散模型是首选的生成式人工智能架构。仅在去年一年，有关基于扩散的工具和应用的文献就呈指数级增长，相关论文在计算机图形学、计算机视觉和人工智能社区中发表，每天都有新作品出现在 arXiv 上。该领域的快速发展使得我们很难跟上所有最新的发展。这份最先进报告 STAR 的目标是介绍扩散模型的基本数学概念、流行的稳定扩散模型的实现细节和设计选择，并概述这些生成式 AI 工具的重要方面，包括个性化、调节、反转等。此外，我们还全面概述了有关基于扩散的生成和编辑的快速增长的文献，按生成介质的类型进行分类，包括 2D 图像、视频、3D 对象、运动和 4D 场景。最后，我们讨论可用的数据集、指标、开放挑战和社会影响。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com