[自注意力神经网络]Mask Transfiner网络-论文解读

news/2024/5/3 23:50:02/文章来源:https://blog.csdn.net/weixin_37878740/article/details/130329105

 本文为CVPR2022的论文。国际惯例,先贴出原文和源码:

原论文地址https://arxiv.org/pdf/2111.13673.pdf源码地址https://github.com/SysCV/transfiner

一、概述

        传统的Two-Stage网络,如Mask R-CNN虽然在实例分割上取得了较好的效果,但其掩码依旧比较粗糙。Mask Transfiner将图像区域分解为四叉树,网络仅处理检测到的易错树节点(error-prone tree node)和错误自纠正(self-corrects their errors)。这使得Mask Transfiner可以以第计算成本预测高精度的实例掩码。

 二、相关概念

        实例分割中,大部分的像素点分类错误均可归结于下采样造成的空间分辨率损失。这导致在物体边缘位置,掩码的分辨率较低。为了解决这个问题,本文中提出了两个概念:信息损失区域(Incoherent Regions)和四叉树(Quadtree)。

        1.信息损失区域

                 为了描述这些区域,本文对掩码本身进行下采样来模拟网络中下采样造成的信息丢失。从上面的图例我们可以看到,对原掩码进行一次2倍的下采样后再进行一次2倍的上采样,橙色部分(原图上标红框)为分类错误的点。而经过实验,大部分的误差均几种在信息损失区域。

                信息损失区域的检测:本文涉及的轻量化检测模块如下图所示,可以有效的在多尺度特征金字塔上检测信息损失区域。

                        将最小特征(smallest features)和预测的粗糙对象掩码(coarse object mask predictions)拼接(concat操作)起来作为输入。

                        ①经过一个全卷积网络(FCN,由四个3x3卷积组成)和一个二分类器来预测最粗糙的信息损失掩码

                        ②对检测到的低分辨率掩码进行上采样(使用1x1卷积),并与相邻层中的高分辨率特征进行融合。

        2.四叉树

                在本文中,四叉树被用来细化图像中的信息损失区域。其连接这两个不同层次的特征金字塔中的预测掩码。如下图所示。基于检测到的信息损失点,可以构建一个多层次的四叉树,以检测到的最高层次的特征图作为根结点,这些根节点可以被映射到低层次特征图上细分的四个象限(这些图具有更大的分辨率和局部细节)。

         

 三、网络结构

        Mask Transfiner的网络结构如下图(属于网络大框架的部分以红框标出): 

         本网络基于分层的FPN(Feature Pyramid Networks-特征金字塔),Mask Transfiner的对象并不是单级的FPN特征,而是将RoI特征金字塔上的信息损失区域中检测到的稀疏特征点作为输入序列,并输出其对应的分割标签。

        1.RoI金字塔

                本文利用了骨干网络提取的分层特征图中的2到5层的特征图。基于对象检测器给定的实例建议,通过FPN在{ P_i,P_{i-1},P_{i-2} }三个不同层级的特征图上提取RoI特征,这三层的RoI特征的尺寸分别为{28,56,112},并使用这三个特征来构建RoI金字塔。

                其中,起始层 i 的计算公式为:i = \left \lfloor i_0 + log_2(\sqrt{WH}/224)) \right \rfloor,其中i_0=4,W和H为RoI的宽高。

                低层次的特征中有较多的上下文和语义信息;而高层次的特征中则包含更多局部特征。

        2.输入节点序列

                该序列由来自四叉树的三个不同级别的信息损失节点构成。序列的大小为CxN,其中C为特征通道的维数,N为节点的总数。该序列由节点编码器(Node Encoder)压制而成。

        3.节点编码器

                节点编码器会使用以下四种信息对四叉树的每个节点进行编码。

                        ①从当前层次的FPN提取的细粒度特征

                        ②来自最初的粗掩码预测区域提供的语义信息

                        ③节点之间的关系和距离信息(由RoI中的相对位置编码封装)

                        ④每个节点的上下文信息和自身的信息

                本文在每个节点的3x3邻域中提取特征并使用全连接层进行压缩。如下图所示,细粒度特征,粗分割线索和上下文特征首先通过全连接层融合,再将位置嵌入添加到其中。

        4.序列编码器和像素解码器

                 每个序列编码器具有多头注意力模块和全连接前馈神经网络。

                 像素解码器为一个小型的双层MLP(多层感知机),其可以解码每个节点的输出查询,并预测最终的掩码标签。

四、损失函数

        基于四叉树,本文使用的损失函数为:

                L=\lambda_1L_{Detect}+\lambda_2L_{Coarse}+\lambda_3L_{Refine}+\lambda_4L_{Inc}

                        其中L_{Refine}表示预测的信息损失点与真实标签之间的L1损失函数;L_{Inc}为检测信息损失区域的交叉熵损失函数;L_{Detect}包括了检测器的定位和分类损失;L_{Coarse}表示初始粗分割预测的损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_102350.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARM busybox 的移植实战2

一、busybox 源码分析1 1、源码目录梳理 2、整个程序入口的确认 (1) 分析一个程序,不管多庞大还是小,最好的路线都是 按照程序运行时的逻辑顺序来。所以找到一个程序的入口至关重要。 (2) 学 C 语言的时候都知道,程序的主函数 main 函数就是…

【JUC高并发编程】—— 初见JUC

一、JUC 概述 什么是JUC JUC 是 Java并发编程的缩写,指的是 Java.util.concurrent 即Java工具集下的并发编程库 【说白了就是处理线程的工具包】 JUC提供了一套并发编程工具,这些工具是Java 5以后引入的,使得Java开发者可以更加方便地编写…

【系统集成项目管理工程师】项目干系人管理

💥十大知识领域:项目干系人管理 项目干系人管理包括以下 4 个过程: 识别干系人规划干系人管理管理干系人参与控制干系人参与 一、识别干系人 输入工具与技术输出项目章程采购文件事业环境因素组织过程资产组织相关会议专家判断干系人分析干系人登记册 …

ansible自动运维——ansible使用临时命令通过模块来执行任务

大家好,这里是天亮之前ict,本人网络工程大三在读小学生,拥有锐捷的ie和红帽的ce认证。每天更新一个linux进阶的小知识,希望能提高自己的技术的同时,也可以帮助到大家 另外其它专栏请关注: 锐捷数通实验&…

为什么使用了索引,查询还是慢?

🏆今日学习目标: 🍀为什么使用了索引,查询还是慢? ✅创作者:林在闪闪发光 ⏰预计时间:30分钟 🎉个人主页:林在闪闪发光的个人主页 🍁林在闪闪发光的个人社区&…

linux 安装 oracle 11g

linux 安装 oracle 11g 1、下载oracle 11g (11.2.0.1.0)1.1、Oracle Database 11.2.0.1.01.2、Oracle Database Grid Infrastructure 11.2.0.1.01.3、客户端 2、安装文档3、安装前准备3.1、建立用户和用户组3.2、sysctl3.3、security limits3.4、其他设置3.5、创建安装目录3.6、…

校招又临近了,怎么在面试中应对设计模式相关问题呢?

夏天开始了,那么夏天结束时的毕业季也不远了。毕业是个伤感、期待而又略带残酷的时节,就像蜜桃无论成熟与否都会在这个时间被采摘,如果毫无准备就踏入社会,就会……马上变成低级社畜。所以说还是要早点为了毕业找工作做点准备&…

Jetson nano B01学习笔记 -- 系统环境配置以及ROS安装

文章目录 一、Jetson nano 简介二、 系统环境配置1、系统镜像烧录2、CUDA环境配置 三、 ROS安装和环境配置总结 一、Jetson nano 简介 Jetson Nano是一款体积小巧、功能强大的人工智能嵌入式开发板,于2019年3月由英伟达推出。它预装Ubuntu 18.04LTS系统,…

LeafLet加载自定义Legend的设计与实现

背景 众所周知,在GIS的世界里,图例和地图永远是一对一起出现的对象。在地图上表示地理环境各要素,比如山脉、河流、城市、铁路等所用的符号叫做图例。这些符号所表示的意义,常注明在地图的边角上。图例是表达地图内容的基本形式和…

小六壬学习笔记

小六壬学习笔记 简介前置知识:十二地支和十二时辰适用范围起课:月令日时卦象 疑问:遇到闰月怎么办?禁忌数字起课法手机计算器取余数 简单解卦 简介 马前课,又名:小六壬。 小六壬历史渊源:https://m.sohu.c…

统信UOS 20 安装达梦数据库V8

统信UOS 20 安装达梦数据库V8 1、安装教程2、启动数据库实例服务失败解决方法3、使用dm管理工具连接数据库 1、安装教程 https://blog.csdn.net/OceanWaves1993/article/details/129936878 此教程进行到启动数据库实例步骤时 使用下面命令启动数据库实例服务时,报…

大数据技术之集群数据迁移

在大数据集群数据迁移的项目中涉及到很多技术细节,本博客记录了迁移的大致的操作步骤。 迁移借用Hadoop自带的插件:distcp。 一、Hadoop集群数据迁移 **DistCp(分布式拷贝)**是用于大规模集群内部和集群之间拷贝的工具。它使用M…

DHCP笔记

目录 DHCP动态主机配置协议——UDP67/68端口 DHCP获取IP地址 客户端首次获取IP地址 客户端再次获取IP地址 租期/续租 DHCP的工作报文 DHCP的配置 案例 DHCP动态主机配置协议——UDP67/68端口 DHCP是应用层协议,采用C/S服务模式,只能在一个广播域…

数据科学与机器学习在软件开发中的应用

数据科学和机器学习是现代软件开发的重要组成部分,可以帮助开发人员更好地理解和分析数据,从而提高软件的质量和性能。在本篇博客中,我将深入探讨数据科学和机器学习在软件开发中的应用,并讨论它们如何帮助我们创建更好的软件。 …

Xshell中的基本命令

whoami 当我们刚登录上Xshell的时候,我们应该做什么呢?? 我们上次说了如何增加使用者,和删除使用者,今天我们说一下其他的基本命令。 我们刚开始登录的时候可以用root登录 那么我们怎么看自己事谁呢? …

Android 一个获取网址时间的Demo

Android 一个获取网址时间的Demo 文章目录 Android 一个获取网址时间的Demo通过一个网址获取时间的代码关于Android NTP 时间Android 同步时间代码 前段时间有个客户想用局域网同步Android 设备的时间,开发后把这个demo分享一下。 效果: 这里也获取了阿…

VUE3子组件-业务代码优化

Vue3子组件 1.简介 Vue 3组件的主要优势之一就是它们可以帮助你将你的应用程序分解成可维护和可重用的部分。当你在应用程序中多次使用相同的代码时,你可以将它们抽象成一个组件,然后在应用程序中的多个地方使用该组件,而不必每次都编写相同…

User Diverse Preference Modeling by Multimodal Attentive Metric Learning

BACKGROUND 现有模型通常采用一个固定向量去表示用户偏好,在假设——特征向量每一个维度都代表了用户的一种特性或者一个方面,这种方式似乎不妥,因为用户对于不同物品的偏好是不一样的,例如因演员喜欢一部电影,而因特…

Linux 静态库的制作与使用

目录 静态库1、 什么是库2、 静态库的制作2.1 命名规则与制作规则 3、 静态库的使用 静态库 1、 什么是库 库文件是计算机上的一类文件,可以简单的把库文件看成一种代码仓库,它提供使用者可以直接拿来用的变量、函数或类。库是一种特殊的程序&#xff…

多兴趣推荐召回模型:ComiRec

前言 多兴趣向量召回系列: 通过Youtube DNN推荐模型来理解推荐流程 多兴趣召回模型:MIND 推荐系统可以表达为序列推荐问题的形式,序列推荐任务是通过用户的历史行为来预测用户下一个感兴趣的item,这也与真实场景的推荐场景是符…