五一堵车 | AI“高速”车辆检测轻而易举监测大家安全

news/2024/5/2 3:22:33/文章来源:https://blog.csdn.net/gzq0723/article/details/130445320

133b85171133e1141761cb72f1bd9973.gif

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

a3852f97bcc6123c18ae9d5546fb477f.gif

190afd93903486f5e4a09c8046c13abe.gif

学习群|扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

五一节不管是离开小城镇还是进入大城市,每个高速路口都是堵车,现在人工智能愈来愈发达,不再用通过交警得知高速公路上的案发事件,现在都是摄像机覆盖,AI可以通过镜头&算法检测到行驶的车辆,如果有交通事故都是第一时间传达交警来处理。以至于有些路段都是通过无人机来进行交通事故处理!

0d767c8f34c2243b78c807e40de16294.jpeg

一、简要

Single-stage目标检测方法因其具有实时性强、检测精度高等特点,近年来受到广泛关注。通常,大多数现有的single-stage检测器遵循两个常见的实践:它们使用在ImageNet上预先训练的网络主干来完成分类任务,并使用自顶向下的特征金字塔表示来处理规模变化。

12e460517ac580caf56fbcc73190a55a.gif

好比在国庆节的高速路上,车辆较多,而且车辆的行驶速度不一,大多数都是高速行驶状态中,所以有研究者研究了一个single-stage检测框架,它结合了微调预训练模型和从零开始训练的优点。新框架构成了一个标准的网络,使用一个预先训练的主干网络和一个并行的轻型辅助网络从零开始训练。

75cadcebf93aaa1269d8308b2176be52.png

此外,研究者认为通常使用的自顶向下的金字塔表示只关注于将高级语义从顶层传递到底层。然而在新的检测框架中引入了一个双向网络,它可以有效地传递中低层次和高层次的语义信息。

二、背景&动机

研究表明,训练检测模型从零开始解决这个问题,导致精确定位。但是与基于微调的对应网络相比,从零开始训练时间花费多。因此研究者引入一个训练模型,将训练前的和从零开始训练的优点结合起来,该框架使用一个预训练前的主干和一个从零开始训练的浅辅助网络。提出的方法相比baseline在AP指标上分别提高了7.4%4.2%。在COCO测试集上,固定300×300输入,提出的以ResNet为backbone的检测器在单级推理方面超过了现有的单级检测方法,AP达到了34.3 ,在一个Titan X GPU上时间为19毫秒,同时兼顾了精度和速度。

a1f739b3481ad98b35a9f3b97fe99efe.png

现在遇到的问题:

  • 小目标检测的难点

小目标检测是一个具有挑战性的问题,它既需要精确描述对象的低层/中层信息,也需要区分目标对象与背景或其他对象类别的高级语义信息。

近来的one-stage探测器的目标是获得与two-stage相近的检测精度。
尽管在大中型目标上效果较好,但这些探测器在小目标上的性能却低于预期。
例如:
当使用一个500×500的输入时,使用RetinaNet在COCO数据集上,
AP为47,但在小目标上,AP只有 14。
  • 预训练网络的利弊

主流的one-stage目标检测框架的通用策略是:利用一个经过ImageNet预训练的backbone完成分类任务。然后利用检测目标的数据集进行微调,从而达到快速收敛的效果。但是目标检测中的分类任务和定位任务之间仍然存在较大差异,尤其是在目标框重叠阈值高的情况下。

在ICCV2019Kaiming He的最新论文中,也对利用ImageNet
进行预训练然后fine-tune这种模式进行了思考,并且认为从
零开始训练检测模型,有助于精确定位。但是另一方面,与典
型的基于微调的网络相比,从零开始训练非常深的网络需要的
训练时间要长得多。

三、新框架

0b8303d012f3261063ab0cafd6e8a282.png

新框架图图显示了由三个主要组件组成的总体架构:标准SSD网络轻量级暂存网络(LSN)双向网络

标准SSD使用预先训练的网络主干。因此将来自标准SSD层的功能(conv4_3,FC_7,conv8_2,conv9_2,conv10_2和conv11_2)称为主干特征,因为它们源自预先训练的网络主干。研究者采用VGG-16作为主干网络。轻量级暂存网络(LSN)产生低/中级特征表示,然后将其注入到后续标准预测层的主干特征中以改善其性能。然后,将当前层和前一层的结果特征以自下而上的方式组合到双向网络中。双向网络中的自顶向下方案包含独立的并行连接,以将高级语义信息从网络的较后一层注入到前一层。

不同之处:

新框架中双向网络与现有的几个单级检测器使用的特征金字塔网络(FPN)相比有以下不同之处。

首先,FPN的自底向上部分遵循了标准中使用的CNN的金字塔特征层次结构SSD的框架。FPN和SSD的自底向上部分都遵循骨干网的前馈计算,建立了特征层次结构。除了FPN/标准SSD中的自底向上部分外,新框架中的双向网络中的自底向上方案以级联的方式将前一层的特性传播到后一层。此外,FPN中的topdown金字塔通过级联操作逐层融合了许多CNN层。在双向网络的自顶向下方案中,预测层通过独立的并行连接进行融合,而不是逐层逐层的级联/顺序融合。

LSN Feature Extraction

在现有检测框架中常用的特征提取策略包括从网络主干,如VGG-16,在多个卷积块和最大池层的重复堆栈中提取特征,以产生语义强的特征(见下图)。

876eed829a8407e52b0c79e12e181c71.png

这种特征提取策略有利于偏好平移不变性的图像分类任务。与图像分类不同,目标检测还需要精确的目标描述,其中局部低/中水平特征(如纹理)信息也是至关重要的。为了补偿预先训练的网络的主干特征中的信息损失,在新框架的LSN中使用了另一种特征提取方案,如上图(b)。

首先,通过池化操作将输入图像下采样到第一SSD预测层的目标大小。然后,得到的下采样图像通过轻量级串行操作(LSO),包括卷积、batch-norm和ReLU层。请注意,LSN是用随机初始化从零开始训练的。它遵循类似的金字塔特征层次,如标准SSD。

四、实验

469c790cb20418222f9e4e9d71803d07.png

[18]  Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollr. Focal loss for dense object detection. In ICCV, 2017

bd3f909016699459a8bac1589b119ce7.png

3a3a0445718edebae52acd403a392ab2.png

82b20206bb208e1de5759f2b91be92d5.png

计算机视觉研究院 ▶▶▶

JOIN US

学习群

73cc84d0932b6e4fe5487814ea80b7a5.gif

© THE END 

转载请联系本公众号获得授权

7738a46d640e5751074a6230020c8bfd.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

40da565be810402b518055f21bc40a4c.png

往期推荐 

🔗

  • 最近几篇较好论文实现代码(附源代码下载)

  • AI助力社会安全,最新视频异常行为检测方法框架

  • 新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!

  • VS Code支持配置远程同步了

  • 改进的阴影抑制用于光照鲁棒的人脸识别

  • 基于文本驱动用于创建和编辑图像(附源代码)

  • 基于分层自监督学习将视觉Transformer扩展到千兆像素图像

  • 霸榜第一框架:工业检测,基于差异和共性的半监督方法用于图像表面缺陷检测

  • CLCNet:用分类置信网络重新思考集成建模(附源代码下载)

  • YOLOS:通过目标检测重新思考Transformer(附源代码)

  • 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)

  • Fast YOLO:用于实时嵌入式目标检测(附论文下载)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_294379.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4月30日第壹简报,星期日,农历三月十一

4月30日第壹简报,星期日,农历三月十一坚持阅读,静待花开1. 五一小长假首日全国铁路迎客流高峰,创铁路单日客流历史新高,旅游订单量较春节假期首日增长668%。2. 六大国有银行一季报业绩披露:共赚近3600亿元&…

K8s基础1——发展起源、资源对象、集群架构

文章目录 一、发展起源二、资源对象2.1 集群类2.2 应用类2.3 存储类2.4 安全类 三、集群架构 一、发展起源 K8s官方文档 K8s怎么来的? 十几年来,谷歌内部使用的大规模集群管理系统是Brog,基于容器技术实现了资源管理的自动化和跨多个数据中心…

一曲微茫度余生 ——川剧《李亚仙》唱响香港西九戏曲中心

2023年4月28日晚,香港西九戏曲中心灯火辉煌。重庆市川剧院携手成都市川剧研究院带来的川剧《李亚仙》首场演出在这个为戏曲而设的世界级舞台重磅上演。 此次访演受香港西九戏曲文化中心的邀请,原重庆市文化和旅游发展委员会党委书记、主任刘旗带队&…

CKA/CKS/CKAD认证考试攻略

什么是CKA考试? CKA认证考试是由Linux基金会和云原生计算基金会(CNCF)创建的,以促进Kubernetes生态系统的持续发展。该考试是一种远程在线、有监考、基于实操的认证考试,需要在运行Kubernetes的命令行中解决多个任务。CKA认证考试是专为Kube…

SpringBoot 多数据源及事务解决方案

1. 背景 一个主库和N个应用库的数据源,并且会同时操作主库和应用库的数据,需要解决以下两个问题: 如何动态管理多个数据源以及切换? 如何保证多数据源场景下的数据一致性(事务)? 本文主要探讨这两个问题的解决方案…

使用Dino+SAM+Stable diffusion 自动进行图片的修改

SAM 是Mata发布的“Segment Anything Model”可以准确识别和提取图像中的对象。 它可以分割任何的图片,但是如果需要分割特定的物体,则需要需要点、框的特定提示才能准确分割图像。 所以本文将介绍一种称为 Grounding Dino 的技术来自动生成 SAM 进行分割…

Linux学习[8]查找文件指令:which whereis locate find

文章目录 前言1. which2. whereis3. locate4. find总结: 前言 之前在弄交叉编译的时候需要找到gcc,gdb什么的在哪里;涉及到了查找文件指令。 这里对linux中的查找指令进行总结 1. which which指令一般用来寻找可执行文件的路径,…

AI绘画能力的起源:通俗理解VAE、扩散模型DDPM、ViT/Swin transformer

前言 2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN2015 Fast R-CNN、Faster R-CNN2016 YOLO、SSD2…

5 款 AI 老照片修复工具的横向比较

在大语言模型和各类 AI 应用日新月异的今天,我终于下定决心,趁着老照片们还没有完全发黄褪色、受潮粘连抑或损坏遗失,将上一代人实体相册里的纸质胶卷照片全部数字化,并进行一次彻底的 AI 修复,好让这些珍贵的记忆能更…

【五一创作】数据可视化之美 ( 三 ) - 动图展示 ( Python Matlab )

1 Introduction 在我们科研学习、工作生产中,将数据完美展现出来尤为重要。 数据可视化是以数据为视角,探索世界。我们真正想要的是 — 数据视觉,以数据为工具,以可视化为手段,目的是描述真实,探索世界。 …

利用倾斜摄影超大场景的三维模型轻量化技术如何提高网络传输的效率?

利用倾斜摄影超大场景的三维模型轻量化技术如何提高网络传输的效率? 倾斜摄影超大场景的三维模型轻量化在网络传输中的效率可以通过以下几个方面进行提高: 一、数据压缩 对于倾斜摄影超大场景的三维模型数据,可以采用数据轻量化压缩技术进…

Spring DI简介及依赖注入方式和依赖注入类型

目录 一、什么是依赖注入 二、依赖注入方式 1. Setter注入 2. 构造方法注入 3. 自动注入 三、依赖注入类型 1. 注入bean类型 2. 注入基本数据类型 3. 注入List集合 4. 注入Set集合 5. 注入Map集合 6. 注入Properties对象 往期专栏&文章相关导读 1. Maven系…

项目管理软件可以用来做什么?这篇文章说清楚了

项目管理软件是用来干嘛的,就得看对项目的理解。项目是为创造独特的产品、服务或成果而进行的临时性工作。建造一座大楼可以是一个项目,进行一次旅游活动、日常办公活动、期末考试复习等也都可以看成一个项目。 项目管理不善会导致项目超时、超支、返工、…

『python爬虫』05. requests模块入门(保姆级图文)

目录 安装requests1. 抓取搜狗搜索内容 requests.get2. 抓取百度翻译数据 requests.post3. 豆瓣电影喜剧榜首爬取4. 关于请求头和关闭request连接总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 安装requests …

【Linux】4. 开发工具的使用(yum/vim)

前言 工具的本质就是指令 在介绍工具之前先介绍一下互联网生态 Linux 软件包管理器 yum 1. 什么是软件包 在Linux下安装软件, 一个通常的办法是下载到程序的源代码, 并进行编译, 得到可执行程序. 但是这样太麻烦了, 于是有些人把一些常用的软件提前编译好, 做成软件包(可以…

SQL(基础)

DDL: 数据定义语言 Definition,用来定义数据库对象(数据库、表、字段)CREATE、DROP、ALTER DML: 数据操作语言 Manipulation,用来对数据库表中的数据进行增删改 INSERT、UPDATE、DELETE 注意: DDL是改变表的结构 DML…

享受简单上传体验:将Maven仓库迁移到GitHub

前言:我为什么放弃了Maven Central 之前我写过一篇《Android手把手,发布开源组件至 MavenCentral仓库》,文中详细介绍了如何发布组件到Maven Central中供所有开发者共用。但是最近使用下来,发现Sonatype JIRA 的Maven Center上传…

EMC VPLEX VS2 FRU故障备件更换基本流程

本文是针对VPLEX VS2 备件更换流程的详细操作方法,其实VS6也是类似的。 首先要说明一点,EMC VPLEX的任何硬件故障更换都不是直接插拔来完成的,一定要执行脚本要完成更换,本文就是描述如何启动这个脚本和常见的一些问题&#xff0…

一以贯之:从城市网络到“城市一张网”

《论语里仁》中子曰:“参乎,吾道一以贯之”。 孔子所说的“一以贯之”,逐渐成为了中国文化与哲学的重要组成部分,指明事物发展往往需要以标准化、集约化、融合化作为目标。这种智慧在数字化发展中格外重要。从云计算、大数据技术模…

C++——入门基础知识

0.关注博主有更多知识 C知识合集 目录 1.命名空间 1.1命名空间的定义 1.2命名空间的使用 1.3命名空间定义的补充 2.输入与输出 3.缺省参数 3.1全缺省参数 3.2半缺省参数 3.3缺省参数的补充 4.函数重载 4.1C为什么支持函数重载? 5.引用 5.…