【目标检测】Faster R-CNN的几点理解

news/2024/4/25 19:20:14/文章来源:https://blog.csdn.net/wzk4869/article/details/128098715

目录:Faster R-CNN的几点理解

  • 一、Faster R-CNN概述
  • 二、R-CNN、Fast R-CNN、Faster R-CNN的对照
    • 2.1 R-CNN
      • 2.1.1 R-CNN的检测步骤
      • 2.1.2 R-CNN的主要缺点
    • 2.2 Fast R-CNN
      • 2.2.1 Fast R-CNN的检测步骤
      • 2.2.2 Fast R-CNN的缺点
    • 2.3 R-CNN、Fast R-CNN、Faster R-CNN的比较
  • 三、Faster R-CNN网络结构简介
  • 四、Faster R-CNN网络结构详解
    • 4.1 特征提取网络
    • 4.2 区域建议网络RPN
      • 4.2.1 RPN概述
      • 4.2.2 RPN实现的具体方法
      • 4.2.3 Roi pooling
  • 五、Faster R-CNN网络的训练过程
    • 5.1 拆分训练
    • 5.2 端到端训练

一、Faster R-CNN概述

Faster-RCNN是2015年提出的第一个真正意义上的端到端的深度学习检测算法,其最大的创新之处就在于通过添加RPN网络,基于Anchor机制来生成候选框(代替selective search),最终将特征提取、候选框选取、边框回归和分类都整合到一个网络中,从而有效的提高检测精度和检测效率。

Faster-RCNN的具体的流程就是将输入图像缩放以后进入到卷积层提取特征得到feature map(特征图),然后特征图送入RPN网络生成一系列可能的候选框,接下来将原始的特征图和RPN输出的所有候选框输入到Roi Pooling层,提取收集proposal,并计算出固定大小7×7的proposal feature maps,送入全连接层进行目标分类与坐标回归。

二、R-CNN、Fast R-CNN、Faster R-CNN的对照

2.1 R-CNN

2.1.1 R-CNN的检测步骤

  • 输入一张待检测图像;
  • 区域推荐(候选区域):常见的方法有selective search和edge
    boxes,通过选择性搜索算法对输入图像产生1000~2000个候选边框,但形状和大小是不相同的,这些框之间是可以互相重叠互相包含的;利用图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口的情况下保持较高的召回率(Recall);
  • 特征提取:利用卷积神经网络(CNN)对每一个候选边框提取深层特征;
  • 分类:利用线性支持向量机(SVM)对卷积神经网络提取的深层特征进行分类;
  • 去除重叠:将非极大值抑制方法应用于重叠的候选边框,挑选出支持向量机得分较高的边框(bounding box)。

2.1.2 R-CNN的主要缺点

  • 重复计算:计算了候选框之间的重叠部分;(在Fast R-CNN中改良;)
  • 性能瓶颈:所有的候选框会被放缩到固定的尺寸,这将导致图像的畸变,使得模型的性能很难有进一步的提升;(在Fast R-CNN中通过RoI
    Pooling改良;)
  • 步骤繁琐,训练过程分为多阶段;(在Fast R-CNN中通过Softmax替代SVM进行分类改良;)
  • 训练占用内存大,目标检测速度慢。

2.2 Fast R-CNN

2.2.1 Fast R-CNN的检测步骤

  • 输入一张待检测图像;
  • 提取候选区域:利用Selective Search算法在输入图像中提取出候选区域,并把这些候选区域按照空间位置关系映射到最后的卷积特征层;
  • 区域归一化:对于卷积特征层上的每个候选区域进行RoI Pooling操作,得到固定维度的特征;
  • 分类与回归:将提取到的特征输入全连接层,然后用Softmax进行分类,对候选区域的位置进行回归。

2.2.2 Fast R-CNN的缺点

  • 仍然未能实现端到端(end-to-end)的目标检测,比如候选区域的获得不能同步进行;(在Faster
    R-CNN中通过RPN替代SS算法进行改良;)
  • 速度上还有提升空间。

2.3 R-CNN、Fast R-CNN、Faster R-CNN的比较

在这里插入图片描述

三、Faster R-CNN网络结构简介

在这里插入图片描述
Faster R-CNN的结构可分为四个部分:

  • 特征提取网络CNN;
  • 区域建议网络RPN
  • Roi Pooling:这一步主要是将ROI映射到特征图上,然后进行分块,再对每个块做maxpooling,主要作用是将不同大小的ROI统一成固定长度的输出
  • 分类和回归

四、Faster R-CNN网络结构详解

4.1 特征提取网络

这部分和普通的CNN网络中特征提取结构相同,可使用VGG、ResNet、Inception等各种常见的结构(只使用全连接层之前的部分)对输入图片提取特征,最后输出feature map。

4.2 区域建议网络RPN

4.2.1 RPN概述

无论是SSP net 还是 Fast R-CNN网络结构,区域候选环节都采用了Selective search算法,以现在的眼光去比喻类似于造好了一辆汽车(CNN)但是在用马(selective search)拉着跑,因为selective search的计算太慢了,想让物体检测达到实时,就得改造候选框提取的方法。

Faster CNN要做的改进就是统一区域候选提取、分类和边界框回归,实现检测算法的End-to-End。RPN在Faster RCNN这个结构中专门用来提取候选框,相比于Selective Search算法RPN耗时少,并且便于结合到Fast RCNN中成为一个整体。

RPN的引入真正意义上把物体检测整个流程融入到一个神经网络中, Faster RCNN = RPN + Fast RCNN 。

4.2.2 RPN实现的具体方法

在这里插入图片描述
RPN网络是一个全卷积网络,它的核心思想就是使用”滑动窗口+anchor机制”来生成候选框。具体方法是在前面卷积层卷积得到的4060的特征图上,利用滑动窗口的方式,也就是3×3的卷积核在每个滑动窗口中心点构造9个不同长宽比不同尺度的候选框(4060*9≈2万个),并将其以16的映射比例映射到rescale图像中框出来,舍弃超出边界的预proposal,再根据每个区域的softmax score进行从大到小排序,提取前2000个预proposal,对这个2000个进行非极大值抑制,最后将得到的再次进行排序,输出300个proposal给Faster RCNN进行预测,此时Faster RCNN的预测类别不包括背景,因为RPN输出默认为前景。

RPN是一个卷积层(256维)+ relu激活函数 + 左右两个层的(clc layer 和 reg layer)的小网络。RPN在feature map上用3×3的滑动窗口进行卷积,卷积步长stride=1,填充padding=2得到可以被9个anchor区域共享的256d特征。生成anchor区域具体操作是在对特征图卷积的同时,以每个卷积核的中心点为anchors的中心,为每个特征点生成长宽比为[1:1,1:2,2:1]的共9个矩形,输入RPN分类器RPN回归器。如下图所示:
在这里插入图片描述
也就是只要一次前向操作就同时预测k个区域的前景、背景概率(1个区域2个scores,所以得到2k个scores)以及bounding box(1个区域4个coordinates,所以是4k个coordinates),最终每一个bbox都有一个6维的向量,前2维用来判断该框内是否有物体,后面4个维度用来判断该bbox里物体的坐标。另外,在训练RPN筛选候选框时,设定跟任意ground truth(GT) IOU的阈值为0.7,大于0.7的anchor标记为前景(正标签),小于0.3的标定为背景(负样本),然后在分类层,损失函数用softmax loss,RPN只对有标签的区域计算loss,非正非负的区域不算损失,对训练没有作用。

而且,在训练的过程中,FasterRCNN采用交替训练的方式,用初始化的权值训练RPN,再用RPN提取的候选区域训练卷积网络,更新权值。

4.2.3 Roi pooling

Roi Pooling在介绍Fast R-CNN的博客中做过比较具体的介绍,它在此处的具体作用主要有两个:

  • 从feature maps中“抠出”proposals(大小、位置由RPN生成)区域
  • 对大小不一致的输入(这里是卷积层特征图)执行最大池化,并生成固定大小的小功能映射

为什么要pooling成固定长度的输出呢?RPN网络提取出的proposal大小是会变化的,而分类用的全连接层输入必须固定长度,所以需要一个从可变尺寸变换成固定尺寸输入的过程。在较早的R-CNN结构中都通过对proposal进行缩放或剪裁到固定尺寸来实现,缩放和剪裁的副作用就是原始的输入发生变形或信息量丢失,以致分类不准确,而ROI Pooling就完全规避掉了这个问题,proposal能完整的池化成全连接的输入,而且没有变形,长度也固定。

Roi Pooling的具体操作为:

  • roi映射,首先将roi映射到特征图的相应位置
  • 对映射后的roi分块
  • 对每个块进行max pooling操作
  • 假设此时的特征图大小为88,roi投影后的对应位置为(0,3)(7,8),需要再将该区域划分(2×2)(2\times 2)(2×2)sections,注意这里的22是根据要求输出的大小确定的,然后对每个section做Max Pooling操作,这样就得到了固定大小的输出。

五、Faster R-CNN网络的训练过程

Faster R-CNN Faster的训练方法主要分为拆分训练和端到端训练。

5.1 拆分训练

先训练RPN,从所有anchor box中随机挑选256个,保持正样本负样本比例1:1(正样本不够时用负样本补);再从RPN的输出中,降序排列所有anchor box的前景置信度,挑选top-N个候选框叫做proposal, 做分类训练。

整个网络的具体训练过程有四步:

  • 使用ImageNet的预训练模型,初始化RPN,单独训练RPN网络
  • 使用ImageNet的预训练模型初始化Fast Rcnn,同时将第一步RPN的输出作为Faster R-CNN的输入
  • 使用第二步的模型再次训练RPN网络,要求固定住公共网络部分,只更新RPN的参数
  • 使用第三步的结果微调Faster R-CNN,同样是固定公共网络不变,只更新检测网络

5.2 端到端训练

  • 理论上Faster R-CNN网络可以做端到端的训练,但是由于anchor box提取的候选框中负样本占大多数,有的图中负样本和正样本的比例可以是1000:1,导致直接训练难度很大。真正的端到端的目标检测网络还是有的,例如one-stage中代表的YOLO、SSD算法,速度很快,但是精度差一些。
  • Faster R-CNN最核心的工作在于在提取特征的过程中完成候选框提取的操作,大大加快了物体检测的速度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_38729.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(二)devops持续集成开发——jenkins的权限管理配置

前言 jenkins作为目前主流的devops工具,受到了广大开发用户的追捧。由于其丰富的插件库,其可插拔的功能使得其功能和生态都十分强大。本节内容是关于jenkins的权限管理组件Role-based Authorization Strategy的安装及使用。 正文 下载安装Role-based A…

ThinkPHP5文档学习——配置

文章目录一、配置目录二、配置格式PHP数组定义其它格式的支持二级配置三、配置加载惯例配置应用配置拓展配置场景配置四、读取配置参数五、动态配置设置配置参数六、独立配置独立配置文件V5.0.1版本已经废除该写法自动读取扩展配置七、配置作用域八、环境变量配置一、配置目录 …

历届图灵奖得主盘点

图灵奖,全称A.M.图灵奖(ACM A.M Turing Award),是由美国计算机协会于1966年设立的计算机奖项,名称取自艾伦麦席森图灵,旨在奖励对计算机事业作出重要贡献的个人 。图灵奖对获奖条件要求极高,评奖…

第十三章《集合》第3节:Set集合

Set也是Collection的子接口,它定义了另一种形式的集合,专业上称之为Set集合。Set集合的特点如图13-9所示。 图13-9 Set类型集合 从图13-9可以看出:Set类型的集合就像是一个装苹果的筐子,程序员只要把元素存入这个筐子即可。集合中的元素像是胡乱堆积在一起,因此元素没有索…

12【MyBatis注解开发】

文章目录三、Mybatis注解开发3.1 快速入门3.1.1 常用注解说明3.1.2 注解实现开发3.2 注解实现一对一映射3.2.1 接口3.2.2 测试类3.3 注解实现一对多映射3.2.1 接口3.2.2 测试类三、Mybatis注解开发 3.1 快速入门 3.1.1 常用注解说明 注解功能Insert新增Update更新Delete删除…

小学生python游戏编程arcade----单词对错检测及记录写入excel中

小学生python游戏编程arcade----单词对错检测及记录写入excel中前言单词对错检测及记录写入excel中1、excel读取修改1.1 excel读取1.2 修改用到的库1.3 获取Excel表格名称的三种方式1.4 excel格式问题excel文件保存2.1 保存函数2.2 实验2.3 游戏中调用修改2.4 升级时保存字典内…

PCL 点云的法向量

一,点的法向量 点云法线 法向量的概念是很小的时候我们就已经说的,法向量是我们点云中一个非常重要的属性,诸如饿哦们常说的三维重建、点云分割,点云去噪 以及特种描述算法等。 特性: 点云中每一点的法向量夹角和曲率…

面试汇总-MySQL-杂项

目录 1、悲观锁和乐观锁 2、数据库关键字的执行顺序是什么? 3、SQL优化 3.1、如何进行sql优化? 3.2、常见的join算法 3.2.1、Hash Join 3.2.2、Merge Join 3.2.3、Nested Loop Join 3.3、Join前后表的数据量对查询性能有什么影响? …

JavaScript_BOM

JavaScript_BOM 学习路线:JavaScript_BOM->Window对象->confirm()、setInterval()、setTimeout()->History、Location->闪烁的灯泡 概述 BOM:Browser Object Model 浏览器对象模型。也就是 JavaScript 将浏览器的各个组成部分封装为对象。…

【Shell 脚本速成】06、Shell 数组详解

目录 一、数组介绍 二、数组定义 三、数组赋值方式 四、数组取值 案例演示 五、关联数组 5.1 定义管理数组 5.2 关联数组赋值 5.3 管理数组取值 5.4 综合案例 有这样一个现实问题:一个班级学员信息系统,要求存储学员ID、NAME、SCORE、AGE、GE…

文本检测与识别技术的应用现状及产业案例

文本检测与识别技术的产业应用现状 文本是人类文明的视觉和物理载体,文本的检测和识别使视觉与对其内容的理解进一步联系起来。在这一部分中,我们列出并分析了对提高我们的生产力和生活质量产生或将产生重大影响的最杰出的项目。 自动数据录入&#xff…

鼠标监视 | 拖拽方块 | Vue

title: 拖拽功能 tags: Vue categories: JavaScript abbrlink: 18a433ce date: 2022-11-26 21:14:19 效果 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" co…

RabbitMQ 快速入门-消息的收发

RabbitMQ 快速入门-消息的收发准备工作一、Connection 方式1. 生产者测试类2. 消费者测试类注意二、RabbitTemplate 方式1. 生产者测试类2. 创建队列3. 消费者注意准备工作 推荐创建两个 SpringBoot 项目&#xff0c;一个作为生产者&#xff0c;另一个作为消费者 也可使用 Ma…

[附源码]SSM计算机毕业设计校园征兵及退役复原管理系统JAVA

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

若依、多选框前后端处理,MyBatis处理多对多关系

背景 很经典的CRUD&#xff0c;整理下笔记。 后端 实体类 /*** 专业方向主键&#xff0c;用于下拉框搜索*/private Long disasterTypeId;/*** 专业方向*/private List<DisasterType> disasterType;业务层 /*** 新增专家信息库** param expertInfo 专家信息库* return 结…

gcc: error trying to exec ‘cc1plus‘: execvp: no such file or directory

该问题是缺少gcc文件&#xff0c;或者gcc与g版本不匹配问题 问题来源1&#xff1a;系统文件的缺失或者不匹配 按照如下方法测试 安装主要是利用apt-get安装&#xff0c;如果没有root权限的话&#xff0c;只能下载源码进行编译安装&#xff0c;然后添加路径环境&#xff0c;安…

Java基础概念-03-字面量

在有些资料中&#xff0c;会把字面量叫做&#xff0c;常量&#xff0c;或字面值常量&#xff0c;但最正确的叫法还是&#xff0c;字面量 小数在 Java 中也称为浮点数 下面是课本中的介绍&#xff1a; 常量是指在程序运行过程中&#xff0c;其值不能被修改的量&#xff0c;Java…

核心解读 - 2022版智慧城市数字孪生标准化白皮书

核心解读 - 2022版智慧城市数字孪生标准化白皮书前言&#xff1a;城市数字孪生基本概念一、城市数字孪生概述1、城市数字孪生内涵及概念模型2、城市数字孪生典型特征3、城市数字孪生相关方4、城市数字孪生技术参考架构5、城市数字孪生关键技术二、智慧城市数字孪生发展现状1、政…

线性表的顺序实现【C语言版的真代码】

顺序表线性表顺序表顺序表的概念及其结构顺序表基本操作顺序表的初始化顺序表的插入顺序表的删除顺序表的查找线性表 线性表&#xff1a;一个线性表是含n个数据元素的有限序列。 它的逻辑结构要求是线性的&#xff0c;但其存储结构并没有做要求&#xff0c;即逻辑结构类似于如…

m基于NSGAII优化算法的微网系统的多目标优化规划matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 NSGA-II是基于的非支配排序的方法,在NSGA上进行改进&#xff0c;也是多目标进化优化领域一个里程碑式的一个算法。 NSGA-Ⅱ算法是 Srinivas 和 Deb 于 2000 年在 NSGA 的基础上提出的&#xff0c…