【目标检测】【边界框回归】Bounding-Box regression

news/2024/5/20 4:15:22/文章来源:https://blog.csdn.net/wzk4869/article/details/127530093

最近开始看目标检测的论文，第一篇为R-CNN论文，是两阶段目标检测的开山奠基之作。论文中的损失函数包含了边界框回归，且在R-CNN论文里面有详细的介绍。

一、为什么要做边界框回归？

在这里插入图片描述
对于上图，绿色的框表示Ground Truth，红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准（IoU<0.5），那么这张图相当于没有正确的检测出飞机。

这时，我们可以对红色的框进行微调，使得微调后的窗口跟Ground Truth更接近，这样就能实现较为准确的定位。

而Bounding-Box regression就是用来微调这个窗口的。

二、边界框回归是什么？

对于窗口，我们一般用四维向量 $(x, y, w, h)$ 来表示，分别表示窗口的中心点坐标和宽高。
在这里插入图片描述
红色的框 $P$ 代表原始的Proposal, 绿色的框 $G$ 代表目标的Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 $P$ 经过映射得到一个跟真实窗口 $G$ 更接近的回归窗口 $G^\hat{G}$ 。

边框回归的目的既是：给定 $P_x,P_y,P_w,P_h)$ 寻找一种映射 $f$ ，使得 $f(Px,Py,Pw,Ph)=(G^x,G^y,G^w,G^h)f(P_x,P_y,P_w,P_h) = (\hat{G}_x,\hat{G}_y,\hat{G}_w,\hat{G}_h)$ 并且 $(G^x,G^y,G^w,G^h)≈(Gx,Gy,Gw,Gh)(\hat{G}_x,\hat{G}_y,\hat{G}_w,\hat{G}_h) \approx (G_x,G_y,G_w,G_h)$ 。

三、边界框回归怎么做的？

那么经过何种变换才能从图中的窗口 P 变为窗口 $G^\hat{G}$ 呢？比较简单的思路就是: 平移+尺度放缩。

第一步：先做平移 $(Δx,Δy)(\Delta_x,\Delta_y)$

其中： $Δx=Pwdx(P)\Delta_x=P_wd_x(P)$ ， $Δy=Phdy(P)\Delta_y=P_hd_y(P)$ ，这是R-CNN论文里面的：
$G^x=Pwdx(P)+Px\hat{G}_x=P_wd_x(P)+P_x\\$
$G^y=Phdy(P)+Py\hat{G}_y=P_hd_y(P)+P_y$

第二步：做尺度缩放 $S_w,S_h)$

$S_w=exp(d_w(P))$ ， $S_h=exp(d_h(P))$ ，对应的论文中：
$G^w=Pwexp(dw(P))\hat{G}_w=P_wexp(d_w(P))$
$G^h=Phexp(dh(P))\hat{G}_h=P_hexp(d_h(P))$
观察上面的等式我们不难发现，边界框回归学习就是 $d_x(P),d_y(P),d_w(P),d_h(P)$ 这四个变换。下一步就是设计算法得到这四个映射。

边界框回归，我们该如何去理解呢？

首先对于线性回归的概念，我们给定输入的特征向量 $X$ ，学习一组参数 $ω\omega$ ，使得经过线性回归后的值跟真实值 $Y$ (Ground Truth)非常接近，即 $Y≈ωXY\approx \omega X$ 。那么Bounding-Box中我们的输入与输出分别是什么呢？

Input：

Region Proposal -> $P(P_x,P_y,P_w,P_h)$ ，这个是什么？输入就是这四个数值吗？

其实真正的输入是这个窗口对应的 CNN 特征，也就是 R-CNN 中的 Pool5 feature（特征向量）。

(注：训练阶段输入还包括 Ground Truth，也就是下边提到的 $t∗=(tx,ty,tw,th)t_{\ast}=(t_x,t_y,t_w,t_h)$

Output：

需要进行的平移变换和尺度缩放 $d_x(P),d_y(P),d_w(P),d_h(P)$ ，或者说是 $Δx,Δy,Sw,Sh\Delta_x,\Delta_y,S_w,S_h$ ，我们的最终输出不应该是 Ground Truth 吗？是的，但是有了这四个变换我们就可以直接得到 Ground Truth，这里还有个问题，根据公式我们可以知道， P 经过 $d_x(P),d_y(P),d_w(P),d_h(P)$ 得到的并不是真实值 G，而是预测值 $G^\hat{G}$ 。的确，这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量 $t_x,t_y)$ 和尺度缩放 $t_w,t_h)$ 。

这也就是 R-CNN 中的下述的公式：
$t_x=(G_x-P_x)/P_w$
$t_y=(G_y-P_y)/P_h$
$t_w=\log(G_w/P_w)$
$t_h=\log(G_h/P_h)$
那么目标函数可以表示为:
$d∗(P)=w∗TΦ5(P)d_{\ast}(P)=w_{\ast}^{T}\Phi_5(P)$
其中 $Φ5(P)\Phi_5(P)$ 是输入 Proposal 的特征向量， $w∗w_{\ast}$ 是要学习的参数（ $∗\ast$ 表示 $x, y, w, h$ ，也就是每一个变换对应一个目标函数， $d∗(P)d_{\ast}(P)$ 是得到的预测值。我们要让预测值跟真实值 $t∗=(tx,ty,tw,th)t_{\ast}=(t_x,t_y,t_w,t_h)$ 差距最小，得到损失函数为：
$Loss=∑iN(t∗i−w^∗Tϕ5(Pi))2Loss=\sum_{i}^{N}(t_{\ast}^i-\hat{w}_{\ast}^{T}\phi_5(P^i))^2$
函数优化目标为：
$min⁡w∗∑iN(t∗i−w^∗Tϕ5(Pi))2+λ∣∣w^∗∣∣2W_{\ast}=\argmin_{w_{\ast}}\sum_{i}^N(t_{\ast}^i-\hat{w}_{\ast}^{T}\phi_5(P^i))^2+\lambda||\hat{w}_{\ast}||^2$
利用梯度下降法或者最小二乘法就可以得到 $w∗w_{\ast}$ 。

四、为什么宽高尺度会设计这种形式？

文章将会重点解释一下为什么设计的 $t_x,t_y$ 为什么除以宽高，为什么 $t_w,t_h$ 会有 $log⁡\log$ 形式？

首先CNN具有尺度不变性，以下图为例（图片来源于知乎）：

在这里插入图片描述

x,y坐标除以宽高

上图的两个人具有不同的尺度，因为他都是人，我们得到的特征相同。假设我们得到的特征为 $ϕ1\phi_1$ 、 $ϕ2\phi_2$ 。如果我们直接学习坐标差值，以 $x$ 坐标为例， $x_i$ ， $p_i$ 分别代表第i个框的 $x$ 坐标，学习到的映射为 $f$ ：
$f(ϕ1)=x1−p1f(\phi_1)=x_1-p_1$
同理， $f(ϕ2)=x2−p2f(\phi_2)=x_2-p_2$ 。

从上图显而易见， $x1−p1≠x2−p2x_1-p_1\neq x_2-p_2$ 。也就说同一个 $x$ 对应于多个 $y$ ，这明显不满足函数的定义。

边界框回归学习的是回归函数，然而你的目标却不满足函数定义，当然学习不到什么。

宽高坐标log形式

我们想要得到一个放缩的尺度，也就是说这里限制尺度必须大于0。

我们学习的 $t_w,t_h$ 怎么保证满足大于0呢？直观的想法就是 $e x p$ 函数，如R-CNN论文里面的公式，那么反过来推到就是log函数的来源了。

为什么IoU较大，认为是线性变换？

当输入的 Proposal 与 Ground Truth 相差较小时(RCNN 设置的是 IoU>0.6)，可以认为这种变换是一种线性变换，那么我们就可以用线性回归来建模对窗口进行微调，否则会导致训练的回归模型不 work（当 Proposal跟 GT 离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。这里解释：

Log函数明显不满足线性函数，但是为什么当Proposal 和Ground Truth相差较小的时候，就可以认为是一种线性变换呢？大家还记得这个公式吗？
$lim_{x=0}\log(1+x)=x$
现在反过来看公式：
$tw=log⁡(Gx/Pw)=log⁡(Gx+Pw−PwPw)=log⁡(1+Gw−PwPw)t_w=\log(G_x/P_w)=\log(\frac{G_x+P_w-P_w}{P_w})=\log(1+\frac{G_w-P_w}{P_w})$
当且仅当 $G_w-P_w=0$ 的时候，才会是线性函数，也就是宽度和高度必须近似相等。