文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法

news/2024/5/10 21:37:31/文章来源:https://blog.csdn.net/weixin_55500281/article/details/127422784

引用格式:翟一琛,顾佼佼,宗富强,姜文志.融合注意力机制的 IETM 细粒度跨模态 检索算法[J/OL].系统工程与电子技术. https://kns.cnki.net/kcms/detail/11.2422.TN.20220823.1030.004.html

期刊:Systems Engineering and Electronics  《系统工程与电子技术》

本文选自

 

摘 要:交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,改进提出一种融合注意力机制的细粒度跨模态检索算法针对数据中图像简图较多、色彩单一等特点,特征提取模块使用 Vision Transformer 模型和 Transformer 编码器分别获得图文的全局和局部特征使用注意力机制在图文模态间及模态内部挖掘细粒度信息,加入文本对抗训练增强模型泛化能力,采用跨模态联 合损失函数对模型进行约束。在 Pascal Sentence 数据集和自建数据集上进行验证,本文方法 的平均精度均值分别达到了 0.964 和 0.959,较基准模型 DSCMR 分别提升了 0.248 和 0.214。

关键词:交互式电子手册;图文检索;跨模态;注意力机制 

创新点: 

  1. 提出一种融合注意力机制的细粒度跨模态检索算法;
  2. 使用基于注意力机制的特征提取模块抽取图文细粒度特征,在图文交互模块引入模态间整体-局部注意 力机制和模态内注意力机制进行图文细粒度对齐;
  3. 同时针对数据量少的情况,使用文本对抗训练,提升模型泛化能力。

0 引言 

交互式电子手册(interactive electronic technical manual,IETM)是一种对装备技术资 料信息化的技术手段。

现有问题:现有 IETM 的检索功能多采用 传统的关键字索引等方式,无法高效的检索庞大的图像、文本等多模态数据,且数据录入过程需要遵循严格的规范与步骤,使用存在一定的局限性。

 跨模态检索是实现不同模态数据间 相互检索的技术。图像和文本两种模态的数据 经常同时出现,其本身蕴含的信息又能够相互补充。

跨模态检索研究的目的在于挖掘不同模态 样本之间的关系,实现通过一种模态样本来检索具有近似语义的另一种模态样本。与传统 的单一模态检索相比,其难点主要在于图像与 文本的表示形式不同,两者分布在不同的语义空间,无法直接通过传统的余弦距离等方式直接度量二者的相似度。

 目前基于深度学习的跨模态检索主要有跨模态相似性度量和公共特征空间学习等方法。

基于公共特征空间学习的方法可以离线获得文本和图像表示,是目前跨模态检索的主流研究和应用的方向,其主要思想是通过可解释的距离函数约束图文关系,优化不同模态数据之间的分布关系,将不同模态 数据映射到同一公共空间内再进行相似性度量, 这类方法的缺点是特征融合不充分

注意力机制 

Bahdanau 等人[8]在 2015 年首次提出注意力机制并将其应用于机器翻译领域,注意力机制可以聚焦重要信息,并同时具备不同特征空间 以及全局范围内的特征聚合能力,将其应用于跨模态检索领域,可以有效缓解模态间交互不充分的问题。

[8]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014..

在文献[9]中使用的草图数据集与 本文自建数据集图像相似,图像内容均以大量线条为主,加入通道注意力机制[10]关注图像的 关键信息,实现了对模型效果的大幅提升。 

 [9]薛静宜. 手绘草图的跨模态检索[D].北京: 北京邮电大学, 2020: 14-16.

XUE J Y. Cross-modal retrieval of hand drawn sketches[D] Beijing: Beijing University of Posts and Telecommunications, 2020.

[10]Squeeze-andexcitation networks

Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (2018)

J. HuL. Shen Sun G

文献[11]中使用目标检测模型 Faster-RCNN[12] 先对图像进行目标检测,再对检测到的目标分 别进行特征提取得到细粒度特征,之后通过堆 叠交叉注意力实现了良好的检索性能。 

 [11]Stacked cross attention for image-text matching

[12]Faster-RCNN: towards real-time object detection with region proposal networks

文献[13] 证明了同时使用注意力机制进行模态间语义对齐和模态内语义关联的有效性。 

[13]Contextaware attention network for image-text retrieval 

文献[14]提出 在跨模态检索中单独的目标检测模型可能不是必要的,使用 ViT(Vision Transformer) [15]模型进行图像特征抽取后直接构造边界框损失的方法 可以达到最先进的跨模态检索性能。

 [14]ZENG Y, ZHANG X, LI H. Multi-grained vision language pre-training: aligning texts with visual concepts[J]. arXiv preprint arXiv:2111.08276, 2021.

[15]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

现有问题:本文自建数据集来自于航空行业 IETM 相 关技术手册,图像数据多为飞机及相关维修设 备原理图、曲线图等黑白图像,这些图像通过 大量线条组合而成、与通用数据相比,具有较 强的抽象性,部分实例之间十分相似,仅抽取粗粒度信息往往难以区分。 

本文解决:针对此问题,本文改进提出一种融合注意力机制的细粒度跨模态检索算法,通过在特征提取与模态交互阶段引 入注意力机制,实现对图文细粒度特征的提取 和特征间的细粒度对齐。在 Pascal Sentence 数 据集[16]及自建航空行业 IETM 相关技术手册数 据集上进行跨模态检索实验,并对结果进行可 视化展示,验证提出算法的有效性。

1 跨模态检索模型

本文采用 深 度 监 督 跨 模 态 检 索 (deep supervised cross-modal retrieval, DSCMR) [17]为基 础模型,其网络结构如图 1 所示。

 [17]Deep supervised cross-modal retrieval

 

首先,图像和文本分别通过 Image CNN 和 Text CNN 得到图文特征表示;

然后经过全连接 层进行特征抽象,并在最后一层共享权值将图 文特征映射到同一公共表示空间;

最后,再连 接一个线性分类器预测每个样本的类别并构造 标签损失。

此外,模型使用了公共空间的辨别 损失,分别约束图像和文本、图像和图像、文本和文本之间的相似性。 

本文在直接使用 DSCMR 模型用于自建数 据集图文跨模态检索时,平均精度均值(mean Average Precision, mAP)达到 0.745。针对数据集特点,分析可以进行改进的方向主要有两点:①改进特征提取模块以提取图文细粒度特征。②在特征交互阶段融合注意力机制进行图文间的细粒度对齐。 

2 融合注意力机制 

图像特征提取:本文使用基于注意力机制的图像编码器 ViT 进行特征提取,首先将图像进行分块,通过图像编码 器输出每个图像块的特征表示作为图像的局部特征;

文本特征提取:文本编码模块使用基于注意力机制的 Transformer 编码器[18]得到文本的局部特征表 示。

特征交互:在特征交互模块,提出模态内注意力机制和整体-局部模态间注意力机制融合图像特征和文本特征。模型整体结构如图 2 所示。

2.1 图像特征提取模块

 

2.2 文本特征提取模块 

 

2.3 图文交互模块 

在图文跨模态检索模型中,注意力机制用于关注并聚合图像或文本中的关键信息。本文分别设计了模态间全局-局部注意力机制模块模态内注意力机制模块进行图文特征对齐。

2.3.1 模态间全局-局部注意力机制模块

 

2.2.3 模态内注意力机制模块 

在特征提取模块,本文使用了基于注意力机制的 ViT 模型和 Transformer 编码器提取图文 的全局特征和局部特征。在编码器内部、进行 了大量的对图像块之间与单词之间的注意力计 算。此时模态内区域到区域和单词到单词注意 力的计算并未考虑另一模态的影响。但在不同的情景下即使同一模态内关注的内容也应当不 同,所以模态内注意力的计算也应该考虑到另 一模态的内容。故在特征交互阶段,本文考虑另一模态信息的影响再次对模态内注意力进行计算。具体做法为:取出当前模态内对另一模态影响力最大的局部特征,将该局部特征与当前模态剩余的所有局部特征进行注意力计算, 得到基于影响力最大特征的模态内局部特征加权向量。

 

 

 

 

3. 实验验证 

3.1 数据集构建

自建数据集源自于航空行业 IETM 相关技 术手册 PDF 文档,由于部分图册不包含具体的 图像描述且各文档格式不统一,对于无描述文 本的图像采用其所在手册名、标题名和图像自 身的图名作为图像描述。通过使用 PDF 文档自 动化抽取技术以及正则匹配、人工补全和修正 等方式共获取 3112 幅相关数据的图像样本和相 关描述,并根据所在手册不同将其分为维修、 检测、零件、飞行等 10 类,如图 3 所示为数据 集样例,从左到右依次为类别标签、图像和文 本描述。近似按照 6:2:2 的比例划分数据集,得 到 1912 对样本作为训练集,600 对样本作为验 证集、600 对样本作为测试集。

 

Pascal Sentence 数据集源自于 Pascal VOC[20] 数据集,包含 1000 对图文数据,每张图片对应 人工标注的五段文本描述,数据集共分为 20 个 类别,800 对样本作为训练集,100 对样本作为 验证集,100 对样本作为测试集。 

 3.2 数据增强

针对自建数据集学习样本少的问题,对文本样本进行数据增强处理,以减少过拟合现象 的发生。

 

 

3.3 实验配置 

模型使用 Adam优化器,学习率设置为 1e-4, 输入图像大小统一缩放为 256×256 分辨率。采取余弦相似度并使用 mAP 和查准率—查全率曲 线(Precision-Recall Curve, PR 曲线)作为特征表示评价指标。

mAP 指标综合考虑了排名信息和精度,被 广泛应用在跨模态检索研究中[22],PR 曲线以召回率(Recall)和精确率(Precision)为横纵坐标绘制,反映了不同召回率下精确率的变化。

3.4 模型对比分析 

为验证本文方法的有效性,本文选取了 DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨 模态检索模型作为基准模型进行对比,所选对 比方法均使用 Resnet50 [27]提取的 4096 维图像特 征和训练文本 CNN 分类模型得到的 256 维文本 特征,部分方法额外采取了与本文特征提取网 络相同的预训练 ViT 模型和 Transformer 编码器 作为特征提取器进行对比。由表 1 实验数据可 得,本文提出的方法在 Pascal Sentence 数据集 中 相较于 最 好 的 基 准 方 法 DSCMR(ViT, Transformer),以图检文的 mAP 从 0.936 提升到 了 0.963,以文检图的 mAP 从 0.928 提升到了0.964 , mAP 的平均 值 从 0.932 提升到了 0.964。由表 2 实验数据可得,在自建数据集中 相 较 最 好 的 基 准 方 法 SDML(ViT, Transformer),以图检文的 mAP 从 0.848 提高到 了 0.961,以文检图的 mAP 从 0.871 提升到了 0.958 , mAP 的 平 均 值 从 0.860 提升到了 0.959。在这两个数据集上,本文方法的 mAP 均最高,证明了提出方法的有效性。 

 

两个数据集指标提升的差异性主要是由于 图像内容的不同以及文本长度上的差异,Pascal Sentence 数据集中多为日常生活背景下的彩色 图像,五条文本描述进行拼接后,文本长度相 较本文自建数据集文本也更长,所以直接采用 在通用数据集上预训练的 ViT 模型及适合较长 文本序列建模的 Transformer 编码器就会有较大提升。

为进一步验证本文方法的有效性,在自建 数据集上绘制 PR 曲线如图 4、图 5 所示。从图 中可以直观看出,在图检文和文检图任务中, 本文方法都优于文中选取的所有基准方法。

 

3.5 消融实验 

设计消融实验,在自建数据集上验证各模 块对模型性能的影响,结果如表 3 所示,mAP 指标及损失变化如图 6、图 7 所示。

 

方法一为基准模型 DSCMR,均采用 CNN 模型对图文进行特征提取。之后分别增加文本对抗增强、改变特征提取模型、增加模态间注 意力及模态内注意力,验证所提方法对检索性 能的影响。方法二在增加文本对抗 增强后,有助于模型性能的提升;

方法三、四 显示由于自建数据集大部分文本属于短文本, 在不进行后续特征交互的情况下,使用基于注 意力机制的 Transformer 编码器比使用文本CNN 模型的效果要差;

方法四与方法二、方法 五与方法三作对比均可以看出图像特征抽取模 块使用预训练的 ViT 模型较预训练的 CNN 模 型 ResNet50 大幅提升了模型检索准确率。

方法 六和方法七显示抽取细粒度特征及在之后的图 文交互阶段引入模态间注意力和模态内注意 力,模型检索准确率都会取得显著提升。 

 

3.6 参数分析 

另外,本文对特征提取模块中隐空间图文 特征的映射维度进行实验,分别设置为 128 维、256 维和 512 维进行实验,结果如表 4 所 示,从表中可以看出,当映射特征维度取 256 维时,模型性能最佳。

 

3.7 注意力可视化分析 

对模型交互阶段的图文注意力权重进行可 视化分析。在图 9 中,展示了自建数据集图解 零件类手册中两例图文对的注意力可视化结 果。从上图中可以看出,文本对图像注意力分 别关注在图像的两个主体即飞机的发动机和发 动机剖视面图上,图像对文本的注意力权重主 要分布在“发动机”,“剖视面”词语上,二 者与图中注意力关注的区域都有很强的相关 性。 同时,由于文本数据在处理过程中可能会 出现一定的倾向性,对于出现次数较少的词语 或未登录词,使用字符代号“UNK”替代。这 类结果的可视化如图 9 中下图所示,文本对图 像注意力多关注在图像空白区域,而图像对文本的注意力权重则主要分布在“UNK”上。这 表明模型注意力并不一定关注在人通常认为的 图像或文本的关键信息部分,对于有大范围空 白的图像,其注意力可能会关注在模型认为区 分度较强的空白区域和文本中的“UNK”符号 上。以上两种情况均表明图文之间建立了一定 的联系。

4 结论 

针对现有 IETM 检索功能模态单一的问 题,本文以航空行业 IETM 中的 10 类图文数据 为研究对象,改进提出一种融合注意力机制的 细粒度跨模态检索算法。构建飞机技术手册跨 模态检索数据集,并根据数据集特点,对 DSCMR 跨模态检索模型进行改进,使用基于注意力机制的特征提取模块抽取图文细粒度特 征,在图文交互模块引入模态间整体-局部注意 力机制和模态内注意力机制进行图文细粒度对 齐;同时针对数据量少的情况,使用文本对抗 训练,提升模型泛化能力。提出算法在一个公 开数据集和自建数据集上进行验证,mAP 值较所选的最好基准算法分别提升了 0.032 和 0.099。最后,在自建数据集上进行消融实验和 参数实验,并进行注意力可视化分析,进一步 验证了提出算法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_404109.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

跟李沐学AI-动手学深度学习1

整体内容 神经网络可以理解为是一种语言 数学和代码的结合,道术结合,关键在动手 是什么,怎么做,为什么这样 发展知识和应用 广告点击预测三个步骤 预测和训练 模型控制广告展现 数据格式 0维,1维&#xff0c…

【仿牛客网笔记】初识Spring Boot,开发社区首页-MyBatis入门

安装MySQL Server 安装MySQL Workbench 安装过程略。。。 Mybatis手册 Mybatis整合 Mybatis的核心组件: SqlSessionFactory:用于创建SqlSessionFactory工厂类。 SqlSession:Mybatis的核心组件,用于数据库执行SQL 主配置文件:XM…

大一学生期末大作业 html+css+javascript网页设计实例【电影购票项目】html网页制作成品代码

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

java面试题总结-1

Java语言特点 (1)简单易学、有丰富的类库 (2)面向对象(java最重要的特性,让程序耦合度更低,内聚性更高) (3)与平台无关性(JVM是Java跨平台使用的…

拦截器和过滤器

拦截器和过滤器 参考: 过滤器和拦截器的区别_至今没搞明白的博客-CSDN博客_过滤器和拦截器的区别 拦截器与过滤器的区别_℡tang的博客-CSDN博客_拦截器和过滤器的区别 文章目录拦截器和过滤器过滤器概念作用Filter链与Filter生命周期SpringBoot 实现过滤器方式一…

如何将各大网盘整合到一起顺便挂载本地使用(文末附软件获取方式)

目录 1、Alist.exe 2、RaiDrive 今天发现了一个网盘变硬盘神器,它不仅安全免费,更全面支持:百度网盘、阿里云盘、天翼云盘、蓝奏云、闪电盘、夸克网盘、迅雷网盘、等众多你们听过,以及没有听过的所有网盘! 直接先看效…

Mac环境下反编译工具的使用

日常工作中避免不了反编译工具经常安装(换电脑设备、手滑把文件夹删除了。。。等等原因),而且时间一久忘记命令的使用,因此做下记录。 一、反编译工具三件套 apktool:获取apk里的资源文件、配置文件、清单文件、lib文…

毕业论文中引用方法、原理、定义等 如何降重才更有效果?

论文重复率过高是一件很痛苦的事,我当年的本科论文,一共查了四遍才过。 我的查重方法其实比较简单,初稿出来以后我就开始查重了,然后按照标注把标红的部分全部修改掉,而后以此类推,每次改外,或…

BIM+物联网应用,可以解决生活中的诸多问题?

hi,还是我,建模助手。 本期的头条我们聊过有关于元宇宙、BIM和智慧城市之间的些许关联。顺着这条线,再和大家说说更深入的东西——物联网。 它与BIM的结合,可以解决生活中的哪些问题。 01 物联网与BIM关系 在建筑走向智能的时代&a…

ProGAN 论文精读

作者:Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen单位:NVIDIA发表期刊:ICLR 2018 一、前期知识储备: 1.1DCGAN: 1.1.1模型结构: 1.1.2项目地址: github git clone https://git…

【附源码】计算机毕业设计SSM数据分析教学网站

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

微信公众号搭建查题系统

微信公众号搭建查题系统 本平台优点: 多题库查题、独立后台、响应速度快、全网平台可查、功能最全! 1.想要给自己的公众号获得查题接口,只需要两步! 2.题库: 查题校园题库:查题校园题库后台(…

Go Machine Learning

Go Machine Learning 前言 最近因为一直在弄部署整天c写的非常头疼,趁着昨天把分割部署写好后打算换换口味,想着试试Go语言来实现一些机器学习,深度学习会是什么样子.之前推荐过Go(goplus),不过这次打算用更基础的go语法来尝试. 1.准备工作 对于某个从未涉及的领域一开始肯…

硬盘分哪几种类型及主要参数详解

硬盘分哪几种类型 按接口分为:ide、sata、scsi 。 按大小分1.8英寸、 2.5英寸、 3.5英寸、 5.25英寸。 转速分为: 4500转,5400转,7200转和万转。 缓存分为:2m、8m、16m。 硬盘主要参数 硬盘主要参数详解: 转速:硬盘…

Web前端:所有新前端开发人员应该具备的顶级技能

作为前端开发人员,确保软件程序的用户界面正常运行是你的工作,这是一项艰巨的工作,因为你必须确保每个组件都按照预期的方式工作,这样用户才能有良好的体验。 前端开发现在需求量很大。前端开发者管理软件的用户界面/ UX。这很重要…

我不得不学的反射

什么是反射 反射是指对于任何一个Class类,在运行时都可以直接得到这个类的全部成分 这种运行时动态获取信息以及动态调用类中成分的能力称为java的反射机制 获取字节码文件 获取反射对象 方法一 public static void main(String[] args) throws Exception {Cla…

学生选课系统 前后端分离 vue springboot

学生选课系统 前后端分离 vue springboot系统描述一、系统功能二、系统截图1.网络爬虫 新闻获取代码2.pom源码系统描述 基于spring boot vue的学生选课系统 前端: Vue ElementUI axios 后端 springboot 持久层 mybatis Plus 会话 Spring Session redis 日志 AOP Mo…

程序设计与算法(三)C++面向对象程序设计笔记 第七周 输入输出和模板

笔记按照中国大学MOOC上北京大学郭炜老师主讲的程序设计与算法(三)C面向对象程序设计所作,B站上也有资源。原课程链接如下: 程序设计与算法(三)C面向对象程序设计 其他各章节链接如下: 程序设…

《CTF攻防世界web题》之我什么都不会(1)

前言 🍀作者简介:被吉师散养、喜欢前端、学过后端、练过CTF、玩过DOS、不喜欢java的不知名学生。 🍁个人主页:被吉师散养的职业混子 🫒文章目的:记录唯几我能做上的题 🍂相应专栏:CT…

[附源码]Java计算机毕业设计SSM高校创新学分申报管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…