DEFORMABLE DETR:用于端到端对象检测的可变形Transformer

news/2024/4/30 2:43:44/文章来源:https://blog.csdn.net/qq_52302919/article/details/127644932

论文:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》
论文链接:https://arxiv.org/pdf/2010.04159.pdf
代码链接:https://github.com/fundamentalvision/Deformable-DETR

最近在目标检测领域提出了DETR,以消除在物体检测中对许多手工设计部件的需求,同时显示出良好的性能。然而,由于Transformer注意力模块在处理图像特征图时的局限性,它存在收敛速度慢和特征空间分辨率有限的问题。为了缓解这些问题,本文作者提出了可变形DETR,其注意力模块只关注参考周围的一小部分关键采样点。DEFORMABLE DETR比DETR(尤其是在小对象上)在10×更少的训练周期下实现更好的性能。

一、引言

现代目标检测器采用了许多手工制作的组件,例如预设锚框、 rule-based的训练目标分配、非最大抑制(NMS)后处理。它们不是完全端到端的。最近,Carion等人提出了DETR,以消除对此类手工制作组件的需求,并构建了第一个完全端到端的对象检测器,实现了极具竞争力的性能。DETR通过组合卷积神经网络(CNN)和Transformer编码器解码器,利用了简单的架构。他们利用Transformer的多功能和强大的关系建模能力,在适当设计的训练策略下取代手工制定的规则。
尽管DETR具有良好的性能,但它也有自己的问题:
(1)与现有的目标检测器相比,它需要更长的训练时间才能收敛。例如,在COCO基准上,DETR需要500个epoch才能收敛,这大约比Faster R-CNN慢10到20倍。
(2) DETR在检测小物体方面的性能相对较低。现代物体探测器通常利用多尺度特征,从高分辨率特征图中检测小物体。同时,高分辨率特征图导致DETR的 参数急剧增加。上述问题主要归因于Transformer组件在处理图像特征图时的缺陷。在初始化时,注意力模块将几乎均匀的注意力权重投射到特征图中的所有像素。长时间的训练周期对于学习注意力权重以关注稀疏有意义的位置是必要的。另一方面,Transformer编码器中的注意力权重计算是对像素数的二次计算。因此,处理高分辨率特征图具有非常高的计算和存储复杂性。在图像域中,可变形卷积是处理稀疏空间位置的一种强大而有效的机制。它自然避免了上述问题。但它缺乏要素关系建模机制,这是DETR成功的关键。
在本文中,作者提出了可变形DETR,它缓解了DETR的缓慢收敛和高复杂性问题。它结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力。本文提出了可变形关注模块,它关注一小组采样位置,作为所有特征图像素中突出关键元素的预过滤器。该模块可以自然地扩展到聚合多尺度特征,而无需FPN。在可变形DETR中,作者利用(多尺度)可变形注意力模块来代替处理特征图的Transformer注意力模块,如下图所示。
在这里插入图片描述

可变形DETR由于其快速收敛、计算和存储效率,为开发端到端对象检测器的变体提供了可能性。作者探索了一种简单有效的迭代边界框细化机制,以提高检测性能。本文还尝试了两阶段可变形DETR,其中区域建议也由一组可变形的DETR生成,这些DETR被进一步馈入解码器以进行迭代边界框细化。
高效的注意力机制:Transformer涉及自注意力和交叉注意力机制。Transformer最著名的问题之一是大量键值的高时间和内存复杂度,这在许多情况下阻碍了模型的可伸缩性。最近解决这个问题在实践中可以大致分为三类。
第一类是在键值上使用预定义的稀疏注意力模式。最直接的范例是将注意力模式限制为固定的局部窗口。尽管将注意力限制在局部邻域可以降低复杂性,但它会丢失全局信息。为了补偿这一问题,以固定的间隔添加键值1要素来显著增加键值的感受野。有部分Transformer允许少量特殊令牌访问所有关键元素。一些Transformer还添加了一些预先固定的稀疏注意力用来直接关注远程的键值元素 。
第二类是学习依赖数据的稀疏注意力。Kitaev等人提出了一种基于位置敏感散列(LSH)的注意力,它将查询和关键元素散列到不同的bins中。Roy等人提出了类似的想法,利用k-means找出最相关的键值。Tay等人(2020a)通过学习块排列以获得逐块稀疏关注。
第三类是探索自注意力的低阶属性。Wang等人(2020b)通过在尺寸维度而不是通道维度上的线性投影来减少键值元素的数量。Katharopoulos等人(2020);Choromanski等人(2020)通过kernelization approximation重写了自注意力的算子。
在图像领域,高效注意力机制的设计仍然限于第一类。尽管理论上降低了复杂性,但由于内存访问模式的固有限制,这种方法在实现上比具有相同FLOP的传统卷积慢得多(至少慢3倍)。 另一方面,卷积存在变体,如可变形卷积和动态卷积,也可以被视为自注意力机制。尤其是,可变形卷积在图像识别方面比Transformer自注意力更有效。同时,它缺乏元素关系建模机制。 本文提出的可变形注意力模块受到可变形卷积的启发,属于第二类。它只关注从查询元素的特性预测的一组固定的采样点。在相同的FLOP下,可变形注意力比传统卷积稍慢。
用于对象检测的多尺度特征表示:物体检测的主要困难之一是有效地表示不同尺度的物体。现代物体探测器通常利用多尺度特征来适应这种情况。作为开创性工作之一,FPN提出了一种自上而下的路径来组合多尺度特征。PANet进一步在FPN顶部添加了自下而上的路径。Kong等人(2018)通过全局注意力操作结合了所有尺度的特征。Zhao等人(2019)提出了一种U形模块,用于融合多尺度特征。最近,NAS-FPN和Auto-FPN被提出通过神经架构搜索自动设计跨尺度连接。Tan等人(2020)提出了BiFPN,这是PANet的重复简化版本。本文提出的多尺度可变形注意力模块可以通过注意力机制自然地聚合多尺度特征图,而无需这些特征金字塔网络的帮助。

二、重新审视Transformer和DETR

Transformer中的多头注意力:Transformer是一种基于机器翻译注意力机制的网络架构。给定一个查询元素(例如,输出句子中的目标词)和一组关键元素(例如输入句子中的原始词汇),多头注意力模块根据测量查询关键字对query-key 兼容性的关注权重自适应地聚合键值内容。为了使模型专注于来自不同表示子空间和不同位置的内容,使用可学习权重线性聚合不同注意力头部的输出。用q∈Ωqq∈ Ω_qqq表示特征zq∈RCz_q∈ R^CzqRC索引查询元素和k∈Ωkk∈ Ω_kkk索引具有表示特征xk∈RCx_k∈R^CxkRC的关键元素,其中C是特征尺寸,ΩqΩ_qqΩkΩ_kk分别指定查询和关键元素的集合。然后通过以下公式计算多头注意力特征:
在这里插入图片描述
其中m表示注意力头的索引,Wm′∈RCv×CW^{'}_m∈ R^{C_v×C}WmRCv×CWm∈RC×CvW_m∈ R^{C×C_v}WmRC×Cv具有可学习的权重(默认情况下,Cv=C/MC_v=C/MCv=C/M)。注意力权重Amqk∝exp{zqTUmTVmxkCv}A_{mqk}∝exp\{\frac{z^T_qU^T_mV_mx_k}{\sqrt{C_v}}\}Amqkexp{CvzqTUmTVmxk}归一化为∑k∈ΩkAmqk=1\sum{k∈Ω_k} A_{mqk}=1kkAmqk=1,其中Um,Vm∈RCv×CU_m,V_m∈ R^{C_v×C}UmVmRCv×C也是可学习的权重。为了消除不同空间位置的歧义,表示特征zqz_qzqxkx_kxk通常是元素内容和位置嵌入的级联/求和。
目前,Transformer存在两个已知问题。一个是Transformer需要长时间的训练才能融合。假设查询和关键元素的数量分别为NqN_qNqNkN_kNk。通常,当NkN_kNk大时,通过适当的参数初始化,UmzqU_mz_qUmzqVmxkV_mx_kVmxk遵循均值为0、方差为1的分布,这使得注意力权重Amqk≈1NkA_{mqk}≈\frac{1}{N_k}AmqkNk1 。这将导致输入特征的梯度是模糊的。因此,需要长时间的训练,以便注意力权重可以集中在特定的键值上。在图像域中,其中键值元素通常是图像像素,NkN_kNk可以非常大,并且收敛是单调的。
另一方面,由于有大量的查询和键值元素,多头注意力的计算和存储复杂性可能非常高。上式的计算复杂度为O(NqC2+NkC2+NqNkC)O(N_qC^2+N_kC^2+N_qN_kC)ONqC2+NkC2+NqNkC。在图像域中,查询和键值元素都是像素,Nq=NkN_q=N_kNqNk且远远大于通道C、 复杂性由第三项O(NqNkC)O(N_qN_kC)ONqNkC支配。因此,多头注意力模块的复杂性随特征图大小呈二次增长。
DETR:DETR基于Transformer编码器-解码器架构,结合基于集合的匈牙利损失,通过二部分匹配强制对每个真实边界框进行唯一预测。其基本原理如下所示:
给定由CNN主干提取的输入特征图x∈RC×H×Wx∈R^{C×H×W}xRC×H×W ,DETR利用标准Transformer编码器-解码器架构将输入特征映射转换为一组对象查询的特征。3层前馈神经网络(FFN)和线性投影被添加到对象查询特征(由解码器产生)的顶部作为检测头。FFN作为回归分支来预测边界框坐标b∈[0,1]4b∈ [0,1]^4b[01]4,其中b=bx,by,bw,bhb={b_x,b_y,b_w,b_h}b=bxbybwbh对归一化的框中心坐标、框高度和宽度(相对于图像大小)进行编码。线性投影充当分类分支以产生分类结果。
对于DETR中的Transformer编码器,查询和键值元素都是特征图中的像素。输入是ResNet的特征图(带有编码的位置嵌入)。设H和W分别表示特征图的高度和宽度。自注意力的计算复杂度为O(H2W2C)O(H^2W^2C)OH2W2C,其随空间大小呈二次增长。
对于DETR中的Transformer解码器,输入包括来自编码器的特征图和由可学习位置嵌入表示的N个对象查询(例如,N=100)。解码器中有两种类型的注意力模块,即交叉注意力模块和自注意力模块。在交叉注意力模块中,对象查询从特征图中提取特征。查询元素是对象查询的,键值元素是来自编码器的输出特征映射。其中,Nq=N,Nk=H×WN_q=N,N_k=H×WNq=NNk=H×W,交叉注意力的复杂度为O(HWC2+NHWC)O(HW C^2+N HW C)OHWC2+NHWC。复杂性随着特征图的空间大小线性增长。在自注意力模块中,对象查询彼此交互,以便捕获它们之间的关系。查询和关键元素都是对象查询。其中,Nq=Nk=NN_q=N_k=NNqNkN,自注意力模块的复杂度为O(2NC2+N2C)O(2N C^2+N^2C)O2NC2+N2C。对于中等数量的对象查询,复杂性是可以接受的。
DETR是一种有吸引力的目标检测设计,它消除了对许多手工设计组件的需求。然而,它也有自己的问题。这些问题主要归因于Transformer在将图像特征图作为关键元素处理时的注意力不足:
(1)DETR在检测小对象方面的性能相对较低。现代物体探测器使用高分辨率特征图来更好地检测 小物体。然而,高分辨率特征图将导致DETR的Transformer编码器中的自关注模块的复杂度不可接受,其与输入特征图的空间大小具有二次复杂度。
(2) 与现代物体探测器相比,DETR需要更多的训练时间才能收敛。这主要是因为处理图像特征的注意力模块难以训练。例如,在初始化时,交叉注意力模块在整个特征图上几乎是平均关注的。然而,在训练结束时,注意力图会变得非常稀疏,只关注对象。DETR似乎需要一个长时间的训练来学习注意力图中如此显著的变化。

三、Deformable Attention Module

将Transformer注意力应用于图像特征图的核心问题是,它将查看所有可能的空间位置。为了解决这个问题,我们提出了一个可变形的注意力模块。受可变形卷积的启发,无论特征图的空间大小如何,可变形注意力模块都只关注参考点周围的一小组关键采样点,如下图所示。通过为每个查询分配少量固定的关键点,可以缓解收敛和特征空间分辨率问题。
在这里插入图片描述
给定输入特征图x∈RC×H×Wx∈ R^{C×H×W}xRC×H×W,让q索引具有内容特征zqz_qzq和二维参考点pqp_qpq的查询元素,可变形注意力特征如下:
在这里插入图片描述
其中m表示注意力头,k表示采样key,k表示总采样key数量(k远远小于HW)。∆pmqk∆_{pmqk}pmqkAmqkA_{mqk}Amqk分别表示第m个注意力头中第k个采样点的采样偏移和注意力权重。标量注意力权重AmqkA_{mqk}Amqk位于范围[0,1]内,通过∑k=1KAmqk=1\sum^{K}_{k=1} A_{mqk}=1k1KAmqk1进行归一化。∆pmqk∈R2∆_{p_{mqk}}∈ R^2pmqkR2是具有无约束范围的二维实数。pq+∆pmqkp_q+∆_{p_{mqk}}pq+pmqk是权重分数。∆pmqk∆_{p_{mqk}}pmqkAmqkA_{mqk}Amqk二者都通过查询特征zqz_qzq上的线性投影获得。在实现中,查询特征zqz_qzq被送到3MK3MK3MK通道的线性投影算子,其中前2MK2MK2MK通道对采样偏移∆pmqk∆_{p_{mqk}}pmqk进行编码并且剩余的M个通道被送到softmax算子以获得注意力权重AmqkA_{mqk}Amqk
可变形注意力模块可以将卷积特征图作为键值元素。设NqN_qNq为查询元素的数量,当MKMKMK相对较小时,可变形注意力模块的复杂度为O(2NqC2+min(HWC2,NqKC2))O(2N_qC^2+min(HWC^2,N_qKC^2))O(2NqC2+min(HWC2NqKC2))。当其应用于DETR编码器时,其中Nq=HWN_q=HWNqHW,复杂度变为O(HWC2)O(HW C^2)OHWC2,其与空间复杂度呈线性。当应用于DETR解码器中的交叉注意力模块时,其中Nq=NN_q=NNqN(N是对象查询的数量),复杂度变为O(NKC2)O(N KC^2)ONKC2,这与空间大小HW无关。
多尺度可变形注意力模块: 大多数现代对象检测框架受益于多尺度特征图。本文提出的可变形注意力模块可以自然地扩展到多尺度特征图中。
{xl}l=1L{x^l}^L_{l=1}xll1L为输入的多尺度特征图,其中xl∈RC×Hl×Wlx^l∈ R^{C×H_l×W_l}xlRC×Hl×Wl。设Pq^∈[0,1]2\hat{P_q}∈ [0,1]^2Pq^[01]2是每个查询元素q的参考点的归一化坐标,则多尺度可变形注意力模块为:
在这里插入图片描述
其中m表示注意力头,l表示输入特征的层级级别,k表示采样点。∆pmlqk∆_{p_{mlqk}}pmlqkAmlqkA_{mlqk}Amlqk分别表示第l个特征级和第m个关注头中第k个采样点的采样偏移和关注权重。标量注意力权重AmlqkA_{mlqk}Amlqk通过∑l=1L∑k=1KAmlqk=1\sum^{L} _{l=1}\sum^{K} _{k=1}A_{mlqk}=1l=1Lk=1KAmlqk=1归一化。使用归一化坐标Pq^∈[0,1]2\hat{P_q}∈ [0,1]^2Pq^[01]2,其中归一化坐标(0,0)和(1,1)分别表示图像左上角和右下角。上式中的函数φl(Pq^)\varphi l(\hat{P_q})φl(Pq^)将归一化坐标Pq^\hat{P_q}Pq^重新缩放为第l级的输入特征图。多尺度可变形注意力模块与之前的单尺度版本非常相似,只是它从多尺度特征图中采样LK个点,而不是从单尺度特征图采样K个点。
L=1、K=1L=1、K=1L=1K=1Wm′∈RCv×CW^{'}_m∈ R^{C_v×C}WmRCv×C时,所提出的注意力模块将退化为可变形卷积被固定为单位矩阵。可变形卷积设计用于单尺度输入,只关注每个注意力头的一个采样点。然而,多尺度可变形注意力关注多尺度输入中的多个采样点。所提出的(多尺度)可变形注意力模块也可以被视为Transformer注意力的有效变体,其中可变形采样位置引入了预滤波机制。当采样点遍历所有可能的位置时,提出的注意力模块等同于Transformer注意力。
可变形Transformer编码器:本文用所提出的多尺度可变形注意力模块替换DETR中处理特征图的Transformer注意力模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中,提取多尺度特征图{xl}l=1L−1(L=4){x^l}^{L−1}_{l=1}(L=4)xll=1L1L=4,其中ClC_lCl的分辨率比输入图像低2l2^l2l。最低分辨率的特征图xLx^LxL是通过最后C5C_5C5级上的3×3步长为2的卷积获得的,表示为C6C_6C6。所有多尺度特征图都是C=256通道。在本结构中FPN中的自上而下结构未被使用,因为提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。附录还说明了多尺度特征图的构建。实验表明,添加FPN不会提高性能。
在编码器中应用多尺度可变形注意力模块时,输出是与输入分辨率相同的多尺度特征图。键值元素和查询元素都是多尺度特征图中的像素。对于每个查询像素,参考点是其本身。为了识别每个查询像素所处的特征级别,除了位置嵌入之外,我们还向特征表示添加了尺度级别嵌入(表示为ele_lel)。与具有固定编码的位置嵌入不同,尺度级嵌入{el}l=1L\{e_l\}^L_{l=1}{el}l=1L被随机初始化并与网络联合训练。
可变形Transformer解码器:解码器中有交叉注意力和自注意力模块。两种类型的注意力模块的查询元素都是对象查询。在交叉注意力模块中,对象查询从特征图中提取特征,其中键值元素是来自编码器的输出特征图。在自注意力模块中,对象查询相互交互,其中键值元素是对象查询。由于提出的可变形注意力模块用于处理卷积特征图作为关键元素,因此只将每个交叉注意力模块替换为多尺度可变形注意力模块,而保持自注意力模块不变。对于每个对象查询的参考点Pq^\hat{P_q}Pq^是通过可学习线性投影和sigmoid函数从其对象查询嵌入中预测的。
由于多尺度可变形注意力模块提取参考点周围的图像特征,本文使得检测头将边界框预测为相对于参考点的相对偏移,以进一步降低优化难度。参考点用作锚框中心的初始预测。检测头预测相对于参考点的相对偏移。这样,学习的解码器注意力将与预测的边界框具有强相关性,这也加速了训练收敛。
通过在DETR中用可变形注意力模块替换Transformer注意力模块,建立了一个高效、快速收敛的检测系统,称为可变形DETR(如下)。
在这里插入图片描述

四、可变形DETR的其他改进和变体:

可变形DETR由于其快速收敛性以及计算和存储效率,为我们开发各种端到端对象检测器提供了可能性。
迭代边界框优化: 这是受光流估计方向中开发的迭代细化的启发。建立了一种简单有效的迭代边界框细化机制,以提高检测性能。每个解码器层基于前一层的预测来细化边界框。
二阶段可变形DETR:在原始DETR中,解码器中的对象查询与当前图像无关。受两级对象检测器的启发,探索了一种可变形DETR的变体,用于作为第一阶段生成区域建议。生成的区域建议将作为对象查询馈送到解码器以进行进一步细化,形成两阶段可变形DETR。 在第一阶段,为了实现高召回率建议区域,多尺度特征图中的每个像素都将用作对象查询。然而,直接将对象查询设置为像素将给解码器中的自注意力模块带来巨大的的计算和访存成本,其复杂性随着查询的数量呈二次增长。为了避免这个问题,移除了解码器,并形成了一个仅用于区域建议生成的编码器的可变形DETR。其中每个像素被指定为一个对象查询,它直接预测一个边界框。得分最高的边界框被选为区域方案。在向第二阶段提交区域提议之前,不应用NMS。

五、实验部分

在本文中,ImageNet预训练的ResNet-50被用作消融实验的主干。在没有FPN的情况下提取多尺度特征图。默认情况下,M=8和K=4被设置为可变形注意力。可变形Transformer编码器的参数在不同的特征级别之间共享。其他超参数设置和训练策略主要遵循DETR,除了损失权重为2的Focal Loss用于边界框分类,并且对象查询的数量从100增加到300。还报告了DETR-DC5的性能,以进行公平比较,表示为DETR-DC5+。默认情况下,模型训练50个轮次,学习率在第40个时期衰减0.1倍,使用Adam优化器训练模型,基本学习率为2×e−4,β1=0.9,β2=0.999,权重衰减为10−4.用于预测对象查询参考点和采样偏移的线性投影的学习率乘以0.1。在NVIDIA Tesla V100 GPU上评估运行时间。
下图实验部分:与更快的R-CNN+FPN相比,DETR需要更多的训练时间来收敛,并且在检测小对象时性能更低。和DETR比起来,可变形DETR以10×更少的训练周期实现更好的性能(尤其是在小对象上)。详细的收敛曲线如下图。借助迭代边界框细化和两阶段范式,本方法可以进一步提高检测精度。
在这里插入图片描述

在这里插入图片描述
本文提出的可变形DETR具有与Faster R-CNN+FPN和DETR-DC5相当的FLOP。但运行时速度比DETR-DC6快得多(1.6倍),比Faster R-CNN+FPN仅慢25%。DETR-DC5的速度问题主要是由于Transformer中的大量内存访问引起的。本文提出的可变形注意力可以缓解这个问题,但代价是无序的内存访问。因此,它仍然比传统卷积稍慢。
可变形注意力的消融研究 :下表给出了所提出的可变形注意力模块的各种设计选择的消融。使用多尺度输入代替单尺度输入可以有效地提高1.7%AP的检测精度,尤其是在2.9%APSAP_SAPS的小物体上。增加采样点K的数量可以进一步提高0.9%的AP。使用多尺度可变形注意力(允许不同尺度级别之间的信息交换)可以使AP提高1.5%。因为已经采用了跨尺度特征交换,所以添加FPN不会提高性能。当不应用多尺度注意力,且K=1时,(多尺度)可变形注意力模块退化为可变形卷积,从而提供明显较低的精度。
在这里插入图片描述
与最先进方法的比较:下表将提出的方法与其他最先进的方法进行了比较。在下表中,提出的模型都使用了迭代边界框细化和两阶段机制。通过ResNet-101和ResNeXt-101,本文的方法分别实现了48.7 AP和49.0 AP,而没有其他额为的训练方法。通过将ResNeXt-101与DCN一起使用,精度提高到50.1 AP。通过额外的测试时间增加,所提出的方法实现了52.3 AP。
在这里插入图片描述

六、结论

可变形DETR是一种端到端的对象检测器,它高效且快速收敛。它使我们能够探索端到端对象检测器的更有趣和实用的变体。可变形DETR的核心是(多尺度)可变形注意力模块,这是处理图像特征图的有效注意力机制。我们希望我们的工作为探索端到端对象检测开辟了新的可能性。

七、附录

假设查询元素的数量为NqN_qNq,在可变形注意力模块中,计算采样坐标偏移的复杂性∆pmqk∆_{pmqk}pmqk和注意力权重AmqkA_{mqk}AmqkO(3NqCMK)O(3N_qCMK)O3NqCMK。给定采样坐标偏移和注意力权重,等式2的复杂度为O(NqC2+NqKC2+5NqKC)O(N_qC^2+N_qKC^2+5N_qKC)ONqC2+NqKC2+5NqKC,其中5NqKC5N_qKC5NqKC中的因子5是因为双线性插值和注意力中的加权和。另一方面,也可以在采样前计算Wm′xW^{'}_{m}xWmx,因为它独立于查询,计算公式2的复杂度将变为O(NqC2+HWC2+5NqKC)O(N_qC^2+HWC^2+5N_qKC)ONqC2+HWC2+5NqKC。因此,可变形注意力的总体复杂性为O(NqC2+min(HWC2,NqKC2)+5NqKC+3NqCMK)O(N_qC^2+min(HWC^2,N_qKC^2)+5N_qKC+3N_qCMK)ONqC2+minHWC2NqKC2+5NqKC+3NqCMK。在我们的实验中,M=8,K≤ 4和C=256,因此5K+3MK<C,复杂度为O(2NqC2+min(HWC2,NqKC2))O(2N_qC^2+min(HWC^2,N_qKC^2))O(2NqC2+min(HWC2NqKC2))
如下图所示,编码器的输入多尺度特征图从ResNet((通过1×1卷积变换)中C3C_3C3C5C_5C5级的输出特征图中提取{xl}l=1L−1(l=4){x^l}^{L-1}_{l=1}(l=4)xll=1L1l4。最低分辨率的特征图xLx^LxL是通过最后C5C_5C5级上的3×3步长为2的卷积获得的。没有使用FPN,因为提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。
在这里插入图片描述

可变形DETR中的边界框预测 :由于多尺度可变形注意力模块提取参考点周围的图像特征,本文设计了检测头,以预测边界框相对于参考点的相对偏移,从而进一步降低优化难度。参考点用作锚框中心的初始预测。
迭代边界框优化:这里,每个解码器层基于前一层的预测来细化边界框。不同解码器层的预测头不共享参数。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_411604.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

猿创征文|keil和Proteus使用教程

💬推荐一款模拟面试、刷题神器 、从基础到大厂面试题:👉点击跳转刷题网站进行注册学习 目录 一、keil的使用教程 1、新建一个项目 2、选择单片机型号 3、新建工程文件 二、Proteus的使用教程 1、新建一个工程 2、单片机型号及元器件的…

海藻酸钠-四嗪|TZ-PEG-alginate|海藻酸钠-peg-四嗪TZ

海藻酸钠-四嗪|TZ-PEG-alginate|海藻酸钠-peg-四嗪TZ 中文名称:海藻酸钠-聚乙二醇-四嗪 英文名称:TZ-PEG-alginate 纯度:95% 存储条件:-20C,避光,避湿 外观:固体或粘性液体,取决于分子量 …

【Web-CSS基础】CSS的三大特性、定位方式、静态定位、相对定位、绝对定位、浮动定位、固定定位、设置缩放动画

目录 CSS的三大特性 定位方式 静态定位 相对定位 绝对定位(absolute) 固定定位 浮动定位 粘性定位(sticky) 定位总结 综合练习 效果展示 目录 CSS的三大特性 定位方式 静态定位 相对定位 绝对定位(absolute) 固定定位 浮动定位 粘性定位(sticky) 定位总…

高分辨空间代谢组学测试的样品要求以及常见问题

高分辨空间代谢组学可实现定量检测,亦可定性检测,且可一次可同时检出多种类型的化合物,包括脂类、小分子代谢物、蛋白质、药物及其载体等,并且能够呈现出这些物质的空间分布情况。高分辨空间代谢组学测试的样品要求: …

五高引动三层需求 华为全屋智能3.0引领智能家居新进化

昨天,华为全屋智能3.0发布。从2020年11月发布全屋智能开始,华为不断迭代产品和体验,是全屋智能快速进化的主要推动者之一。这一次华为全屋智能3.0带来“高可靠、高掌控、高感官、高心意、高智能”的五高理念,更清晰定义了全屋智能,或者说空间智能该有的样子,这也将引领产…

GitHub榜一竟是Alibaba内部被疯狂转载的Spring全能指南?

spring相信大家都不会陌生! Spring 是目前主流的 Java Web 开发框架,是 Java 世界上最为成功的框架。该框架是一个轻量级的开源框架,具有很高的凝聚力和吸引力。 Spring 由 Rod Johnson 创立,2004 年发布了 Spring 框架的第一版,其…

自动控制原理 - 2 控制系统的数学模型 节2.7-2.10

2 控制系统的数学模型2.7 结构图的等效变换准则2.8 结构图等效变换的应用2.9 信号流图2.10 梅逊公式 2 控制系统的数学模型 2.7 结构图的等效变换准则 结构图没有直接给出系统输入与输出之间的定量关系。如何得到系统输入输出之间的传递函数,从而便于进一步分析系…

【LeetCode】No.78. Subsets -- Java Version

题目链接: 1. 题目介绍(Subsets) Given an integer array nums of unique elements, return all possible subsets (the power set). 【Translate】: 给定一个包含多个唯一元素的整数数组,返回所有可能的子集(幂集)。…

内部在看的Tomcat笔记,真不愧是阿里技术官

前言 SpringBoot中的Tomcat容器 SpringBoot可以说是目前最火的Java Web框架了。它将开发者从繁重的xml解救了出来,让开发者在几分钟内就可以创建一个完整的Web服务,极大的提高了开发者的工作效率。Web容器技术是Web项目必不可少的组成部分,…

学弟:手工测试和自动化测试的区别是啥?

一、 手工测试 1、 什么是手工测试? 手工测试是由测试工程师手动测试软件各项功能以发现缺陷的过程。测试人员应该从最终用户的角度出发,并确保所有功能都按照项目的需求文档中的说明工作。在此过程中,测试人员执行测试用例 并手动生成报告…

Word控件Spire.Doc 【文本】教程(11) ;如何将文本分成两列并在它们之间添加行

列被广泛用于设置页面布局,它可以将文本分成两列或多列,以便文本可以在同一页面上从一列流到下一列。使用 Spire.Doc,我们可以实现此功能并同时在列之间添加一条线。本文将介绍如何将文本拆分为两列并在它们之间添加行。 Spire.Doc for.NET …

图解 Redis 分布式锁,写得太好了!

分布式锁的演进 基本原理 我们可以同时去一个地方“占坑”,如果占到,就执行逻辑。否则就必须等待,直到释放锁。“占坑”可以去redis,可以去数据库,可以去任何大家都能访问的地方。等待可以自旋的方式。 阶段一 publi…

上海各梯队IB学校怎么选?

近日,随着各大国际学校开始公布秋招信息,第一轮秋招考试也将在本周末正式到来。 除了春招主力军A-level学校以外,许多IB和AP美高学校的秋招都格外收到关注。上海到底有哪些优质的IB学校?学生的IB成绩和升学情况如何?什…

中国房车产业深度调研及未来发展现状趋势预测报告

高消费人群的房车旅行新宠,百亿规模产业正在爆发。 随着人们收入和消费水平的提高,具有移动性、独立性、私密性等特点的房车旅游正成为新的热门中高端旅游产品。在小红的书里,与房车相关的笔记有40多万条。在Tik Tok的“房车”和“房车旅行”…

日本知名汽车零部件公司巡礼系列之株式会社104

株式会社104 业务内容: 汽车部件制造(刹车零件、发动机支架、其他支架等) 房屋部件制造 复印机等零件制造 公司简介: 成立时间:1978年3月 资本金:1000万日元(2022年汇率约50万人民币) 员工数&#x…

BSA-PEI,牛血清白蛋白-聚乙烯亚胺,BSA-聚乙烯亚胺的保存

产品名称:牛血清白蛋白-聚乙烯亚胺,BSA-聚乙烯亚胺 英文名称:BSA-PEI 用途:科研 状态:固体/粉末/溶液 产品规格:1g/5g/10g 保存:冷藏 储藏条件:-20℃ 储存时间:1年 温馨提…

68、SpringAQMP(消息转化器)

SpringAQMP(消息转化器) 第一步:查看我们的发送消息感觉都可以是java对象 第二步:在配置里声明一个object队列 第三步:发送一个对象的消息 测试: RbMQ最早只支持字节,这里spring运行我们发obj…

JavaWeb传统商城(MVC三层架构)的促销功能模块【进阶版】

文章目录一.JavaWeb商城项目的促销功能模块【进阶版】开发过程记录1.1 项目背景1.2 需求分析1.3 开发流程/顺序二.促销页面(0.1颗星)2.1 需求介绍2.2 JSP页面2.3效果展示三,商品详情页面(0.2颗星)3.1 需求介绍和效果图3.2 数据库分析3.2 Servlet层3.3 Service层3.4 DAO层3.5 JS…

笔试强训(三十二)

目录一、选择题二、编程题2.1 淘宝网店2.1.1 题目2.1.2 题解2.2 斐波那契凤尾2.2.1 题目2.2.2 题解一、选择题 (1)处于运行状态的操作系统程序应放在(B) A.寄存器 B.主存 C.辅存 处于运行状态的操作系统程序也就是进程,进程需要放在内存中执…

Oracle行转列(pivot)和Oracle列转行(unpivot)

行变列,列变行在生成报表的时候经常遇到,行变列叫做"Pivot”, 反之叫做"Unpivot”。 在Oracle11g之前,一般都是通过case来实现,但是Oracle11g及其以后直接支持PIVOT和UNPIVOT的操作。 pivot 语法: SELECT *…