前言

目标检测长期发展以来two-stage算法(RCNN系列)占据地位，直至YOLO和SSD等one-stage算法的出现。

从R-CNN到Faster R-CNN一直采用的思路是proposal+分类（proposal 提供位置信息，分类提供类别信息）精度已经很高，但由于two-stage（proposal耗费时间过多）处理速度不行达不到real-time效果。

YOLOv1和YOLOv2给目标检测带来了曙光，但也存在很多问题：
（1）定位不准确
（2）和基于region proposal的方法相比召回率较低。

不论是YOLOv1，还是YOLOv2，都有一个共同的致命缺陷：只使用了最后一个经过32倍降采样的特征图（简称C5特征图）。尽管YOLOv2使用了passthrough技术将16倍降采样的特征图（即C4特征图）融合到了C5特征图中，但最终的检测仍是在C5尺度的特征图上进行的，最终结果便是导致了模型的小目标的检测性能较差。

为了解决这一问题，YOLO作者做了第三次改进，不仅仅是使用了更好的主干网络：DarkNet-53，更重要的是使用了FPN技术与多级检测方法，相较于YOLO的前两代，YOLOv3的小目标的检测能力提升显著。

那么，在本文章，就让我们一起来领略一下YOLOv3的强大风采吧。

YOLOv3：

YOLOv3正如作者所说，这仅仅是他们近一年的一个工作报告（TECH REPORT），不算是一个完整的paper，因为他们实际上是把其它论文的一些工作在YOLO上尝试了一下。

YOLOv3除了网络结构，其余变动不多，大部分思想延续前两代YOLO的思想：YOLOv3在YOLOv2的基础上改良了网络的主干，利用多尺度特征图进行检测，改进了多个独立的Logistic regression分类器来取代softmax来预测类别分类。

YOLOv3保留的东西：

YOLOv3保留v1和v2中的特性如下：

从YOLOv1开始，yolo算法就是通过划分单元格grid cell来做检测，只是划分的数量不一样。
采用"leaky ReLU"作为激活函数。
端到端进行训练,统一为回归问题。一个loss function搞定训练，只需关注输入端和输出端。
从yolo_v2开始，yolo就用batch normalization作为正则化、加速收敛和避免过拟合的方法，把BN层和leaky relu层接到每一层卷积层之后。
多尺度训练。想速度快点，可以牺牲准确率；想准确率高点，可以牺牲一点速度。
沿用了v2中边框预测的方法

YOLOv3的改进：

yolo每一代的提升很大一部分决定于backbone网络的提升，从v2的darknet-19到v3的darknet-53。yolo_v3还提供为了速度而生的轻量级主干网络backbone——tiny darknet。速度改进如下：

v3最主要的改进之处为以下三点：

1. 更好的backbone（骨干网络）(从v2的darknet-19到v3的darknet-53,类似于ResNet引入残差结构)
2. 多尺度预测（引入FPN）
3. 考虑到检测物体的重叠情况，用多标签的方式替代了之前softmax单标签方式，分类器不再使用softmax(darknet-19中使用)，损失函数中采用binary cross-entropy loss（二分类交叉损失熵）

一、网络的改进

YOLOv3的第一处改进便是换上了更好的backbone网络(骨干网络提取出图像中好的特征来实现我们所需的目标)：DarkNet53。相较于YOLOv2中所使用的DarkNet19，新的网络使用了更多的卷积——53层卷积，同时，添加了残差网络中的残差连结结构，以提升网络的性能。

这个网络主要是由一系列的1x1和3x3的卷积层组成（每个卷积层后都会跟一个BN层和一个LeakyReLU)层，作者说因为网络中有53个convolutional layers，所以叫做Darknet-53（2 + 1x2 + 1 + 2x2 + 1 + 8x2 + 1 + 8x2 + 1 + 4x2 + 1 = 53 按照顺序数，最后的Connected是全连接层也算卷积层，一共53个）。

注意，DarkNet53网络中的降采样操作没有使用Maxpooling层，而是由stride=2的卷积来实现。卷积层仍旧是线性卷积、BN层以及LeakyReLU激活函数的串联组合。

YOLOv2中对于向前传播中张量尺寸变换，都是通过最大池化来进行，一共有5次。而v3是通过卷积核增大步长来进行，也是5次。(darknet-53最后面有一个全局平均池化，在yolo-v3里面没有这一层，所以张量维度变化只考虑前面那5次)

v3和v2一样，backbone都会将输出特征图缩小到输入的1/32。所以，通常都要求输入图片是32的倍数。可以对比v2和v3的backbone看看：（DarkNet-19 与 DarkNet-53）从下图可以看出，darknet-19是不存在残差结构(resblock，从resnet上借鉴过来)的，和VGG是同类型的backbone(属于上一代CNN结构)