IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

news/2024/5/4 9:48:43/文章来源:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126983566

49fb11eb424dc00574365be2f0a745ea.gif

©PaperWeekly 原创 · 作者 | 武祥宇

单位 | 南京理工大学博士生

研究方向 | 多模态学习

6975564b8d69b7d97b54df6806b70483.png

论文标题:

Declaration-based Prompt Tuning for Visual Question Answering

收录会议:

IJCAI 2022

论文链接:

https://arxiv.org/abs/2205.02456

代码链接:

https://github.com/cciiplab/dpt

541fa6c5fea67e2b81c5e818af8b0a57.png


简介

1.1 问题

近年来,“预训练+微调”范式在跨模态任务中取得了巨大的成功,例如视觉问答(VQA),首先通过自监督任务(如 MLM、ITM 和 ITC)在大规模图文数据集上训练优化 visual-language pre-training 模型,再通过添加一个新的特定于任务的目标函数(如 answer prediction)进行微调以适应下游任务(如 VQA)。

然而,预训练任务目标和微调任务目标形式的不一致性(如微调 VQA 属于输入 image 和 question 的多分类任务,和预训练的任何一个任务都有很大的区别),不仅严重限制了预训练 VL 模型对下游任务的泛化,而且需要引入额外的参数和需要大量有标签数据进行微调。

1.2 方案

作者提出了一种新的 VL 微调范式(Declaration-based Prompt Tuning,简称DPT),这是第一次尝试使用陈述句进行视觉回答的 Prompt Tuning,即将下游 VQA 任务的优化目标形式重新转化为预训练阶段的形式,最大限度地缩小两个阶段之间的差距,促进预训练模型对下游任务的有效适应。

具体而言,DPT 通过:1)textual adaptation,将给定的 question 疑问句转化为陈述句形式进行 Prompt Tuning;2)task adaptation,以预训练阶段的任务目标来优化 VQA,即把 VQA 多分类任务转化为 MLM 和 ITM 任务,通过从陈述句中恢复 mask token 并选择最匹配的 image 来解决 VQA 问题的任务适应。

在 GQA 数据集上的实验结果表明,DPT 在 fully-supervised(2.68%)和 zero-shot/fewshot(over 31%)的准确性方面都优于其他微调方案。

54aa656b3d290d4057c7efcaac317c39.png


相关工作

2.1 Pre-trained Vision-language Models

最近两年,针对各种下游跨模态任务训练一个通用模型的工作很多,例如 visual question answering 或 image captioning。具体而言,在预训练阶段,首先构建了一个类似 bert 的体系结构,通过各种自监督任务学习多模态表示的预训练,例如,在多模态上下文中进行的 MLM 任务或图像-文本匹配 ITM 任务。接下来,在微调阶段对预训练的模型进行微调,以适应使用完全不同的任务特定目标的下游任务,例如预测 VQA 任务的答案。

在本研究中,作者并没有引入全新的任务目标进行优化,而是尝试将 VQA 重新制定为预训练的范式,促进了预训练的 VL 模型对下游任务的有效泛化。

2.2 Cross-modal Prompt Tuning

Prompt Tuning 具有保持预训练模型优化目标与下游任务一致的能力,这使得预训练模型泛化到下游任务,只需 few/zero 样本进行微调。然而,由于 VQA 任务给定问题的语义复杂性,固定的疑问句 template 或预先设定的统一生成范式在设计合适的 Prompt 模型时可能存在不足。为了克服这一问题,本文提出了一种新的基于陈述句的 Prompt 模型,利用问题自适应陈述句作为 Prompt template,使 VQA 任务的文本格式更符合预训练阶段,缩小预训练和微调阶段之间的文本形式差距。

3ec902455affbd528275692d425af277.png


方法

3.1 Preliminary

给定一个在大规模图文数据集上预训练好的模型,微调 VQA 表示为输入一系列从 image 提取的 region features 和从 question 提取的 text features,将其拼接 fed to 预训练好的模型,输出的 [CLS] token通过额外的、特定于 VQA 任务的 MLP 层输出答案。

3.2 Declaration-based Prompt Tuning

869a9620da2261b742bcdebc67196788.png

如图 1(b-d)所示,想要将微调 VQA 任务转换为预训练任务的形式,有两个挑战,一个是文本输入格式的不同(question vs declaration)和任务目标形式(MLM&ITM vs answer classification)的不同。因此,作者提出(1)Textual Adaptation,将问题转换为相应的陈述句;(2)Task Adaptation,将答案预测重新制定为 MLM 和 ITM 任务。

5a906829dc841113807cb429e2f635d3.png

图2为整体方法架构,其中左下角 Declaration Generation 为将问题疑问句转化为陈述句的形式。最下方为 VQA 模型的输入,包含 text features 和 image region features,Multi-Layer Transformers 为预训练好的模型,如 VinVL、Oscar、VisualBert 等等,上方为 Task Adaptation,对应预训练模型的 MLM 和 ITM 任务,目的是为了预测 top-k 个候选答案,并通过图文匹配的方式选择最匹配的答案。

Textual Adaptation via Declaration Generation. Textual Adaptation 旨在将疑问句转化为陈述句,例如,“What is the red object left of the girl?” 的陈述句形式是 “A red [MASK] is left of the girl.”。为此,作者引入了陈述生成,将此过程表述为翻译问题,其中源文本和目标文本分别为问题疑问句和对应的陈述句。

首先使用来自 GQA 数据集的注释构建一个陈述句数据集,其中 “fullAnswer” 被视为陈述句,“fullAnswer” 中的 short answer word/phrase 被替换为 [MASK]。然后,在该数据集上训练 encoder-decoder 模型 T5,并使用 auto-regressive cross-entropy 进行优化。最后,该模型可用于将各种 VQA 数据集的问题疑问句转换为陈述句。

Task Adaptation. 将问题疑问句转化为陈述句形式后,就可以将 VQA 任务转化为预训练的 MLM 和 ITM 任务,包括(1)Adaptation to MLM task. 如图 2 上方,将 VQA 重新表述为MLM 任务,首先将疑问句和陈述句拼接成文本输入,见图 2 下方:

33bd67c5f34b7f55f1befbfcbfbe0df4.png

其中 Q 表示原始问题,D 表示原始问题转化后的带有 [MASK] 的陈述句(如“a red [MASK] is left of the girl”),然后将其送入预训练好的模型,输出的 [CLS] 和 [MASK] 拼接用于预测并选择 top-k 个候选答案:

31d2963ef39b3fe333360ceecb1d3bb1.png

(2)Adaptation to ITM task. 如图 2 上方,为了将 VQA 转化为 ITM 任务,陈述句 D 里的 [MASK] 被依次替换为 top-k 个答案,生成 k 个完整的陈述句,如 “a red tray/food/cloth is left of the girl.”:

379fcea21276ad2ef0efe77da69392c4.png

通过这种方式,将完整的陈述句和原始图像再次输入预训练好的模型,输出的 [CLS] 和 answer token 拼接并预测图文匹配分数:

950bca07ad61ab0e3539f98c2aa521dc.png

分数最高的答案即为最终预测的答案。

961d1eaa550966f96ec93b6946bd782c.png


实验

Datasets. GQA,VQA v2.0

d110a5c58524213728f056b59410824b.png

表 1 为在 GQA 数据集上的结果,第三块打勾的模型方法均为多模态预训练+微调的模型,作者提出的 DPT 模型是在建立在 VinVL 模型基础上的 Prompt Tuning,可以看到在 GQA 数据集 balance split 上,DPT 较 VinVL 模型提升接近 3.0%,最下一行在 GQA 全部数据集样本上,DPT 较 VinVL 也有着小幅度提升。

7f426b87cdcdea039cc8f714c7de173e.png

表 2 中,(1)Baseline 为对 VinVL 模型标准 fine-tuning,即不含有任何prompts;(2)Mask为 “Answer: [MASK]” 的 prompt 形式,模型预测的 mask 即为答案;(3)Dynamic 为 “Answer: [V1][V2]…[V16][MASK]” 的形式,其中 ‘[V1]’-‘[V16]’ 表示在微调期间联合训练的可学习的 token;(4)Declaration 为 “Answer: D” 形式,D 即为作者提出的带有 Mask 的陈述句形式。[C] 和 [M] 为 [CLS] 和 [Maks] token,作为模型输出的表征。

30af22a1740546e071ea82735417106c.png

表 3 为基于不同的预训练模型进行 DPT 微调的结果,可以看到,在不同的多模态预训练模型的基础上应用 Declaration Promps Tuning 均有提升。


9e319354a1e8eba402744c61638ccfdb.png


总结

作者提出将视觉问答任务重新表述为 MLM 和 ITM 的任务,最大限度地缩小视觉语言(VL)预训练和微调阶段之间不一致的差距。为此,首先将问题疑问句转换为陈述句,使用保留的 [MASK] 或候选答案,以减少文本输入格式的差异。然后,通过任务适应将 VQA 重新表述为预训练的格式,以 MLM 和 ITM 任务的方式解决 VQA 问题。在两个数据集上的大量实验验证了 DPT 范式在不同预训练 VL 模型上的有效性和可泛化性,这些模型在 fully-supervised 和 zero-shot/few-shot 下都适用。

更多阅读

98168768e9904ef6fe458c3be43dd61f.png

07bab1199e56faa4f47944627906d77d.png

24e1468ba160d71fed45bb08a95afe20.png

4707bd76665b660e5673f7770e64da9b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

a2c7b54d1e533d4737ff1fe8c74c5836.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

24d6ecbb3732d599743968fbbb8e99d3.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_11907.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python基于django的高校教师科研成果管理系统

长期以来,院校的科研水平和科研规模一直反映着我国科研技术水平技术含量,随着现代科技的日益发展,各个院校的科研活动和科研能力已成为反映高校综合实力重要指标,而随着高校专业类别的增加,教师科研领域范围扩大&#…

GreenPlum列存解密

GreenPlum支持列式存储。叫做AOCO表。那么AOCO列存是如何管理列存文件?如何实现MVCC?是否支持索引,若支持如何实现的呢?下面我们介绍下AOCO的实现机制。1、存储结构如上图所示,列存每一列单独存储一个文件。上面一个表…

文件管理命令和find命令

文件管理命令和find命令 stat命令 查看文件状态 每个文件有三个时间戳: access time访问时间,atime,读取文件内容modify time修性时间, mtime,改变文件内容change time改变时间,ctime,元数据发生改变场景是:上传了WebShell,避…

MySQL数据误删恢复操作

目录记录一次不小心删除生产数据偷偷恢复解决方案 模拟数据删除 记录下操作时间,2022-09-21下午5点左右 通过show variables like %datadir%查看binlog存放目录目录 通过show master status;查看当前binlog的记录文件 查看mysqlbinlog工具目录,需要通过此…

ANYCUBIC Photon Mono 4K光固化打印机快速上手(多次试错的经验积累)

变更记录 记录每次修订的内容,方便追溯。 版本号作者修订内容发布日期1.1Zeeland优化打印机的最佳模式内容2022年9月21日 23:41:581.0Zeeland完善基本文档2022年2月14日 19:33:52 1. 简介 笔者前期使用ANYCUBIC Photon Mono 4K光固化打印机失败了很多次&#xff0c…

Vue3——压缩字体font-spider,完美解决字体压缩后会出现字体消失现象

Vue项目打包字体完整版教程 如果打包的时候字体太大,可以选择压缩字体进行处理 打包前: 打包后: 可以看到,区别还是很明显的,下面是使用方法 这里可以使用字蛛font-spider来进行压缩 字蛛font-spider npm install font-spide…

C 语言避坑指南

文章目录👉引言💎C 避坑指南一、基础|基本常识类1 运算符类型2 占位符|格式化问题3 输入输出问题二、错题 | 程序语句类三、进阶 | 指针与函数四、进阶 | 结构体及宏定义👉引言💎 学习的最大理由是想摆脱平庸,早一天就…

linux 中 date +%s 获取1970年以来的秒数

001、(base) [root@PC1 home]# date +%s 1663810406 (base) [root@PC1 home]# date +%s 1663810410 date +%s //从 1970 年 1 月 1 日 00:00:00 UTC 到目前为止的秒数(时间戳)参考:https://zhidao.baidu.com/question/490735500497375812.html

EasyCVR接入宇视设备后通道显示的是目录,是什么原因?

EasyCVR平台基于云边端一体化架构,充分发挥视频接入、汇聚与管理、分发、智能分析、数据共享等能力,不断在多样化场景中落地应用,不仅涵盖传统行业的安防视频监控,还涉及到景区旅游、校园教育、社区、楼宇、智慧农业等领域的应用。感兴趣的用户可以前往演示平台进行体验或部…

Docker安装Jenkins

Docker安装Jenkins 准备工作 下载Jenkins镜像 docker pull jenkins/jenkins开始安装 创建需要挂载的本地文件夹 mkdir -p 路径/jenkens chmod 777 路径/jenkens创建并启动Container docker run -d -p 8080:8080 --name=jenkins -v 路径/jenkens/:/var/jenkins_home jenkins/jen…

vue 中利用js完成等比例缩放图片和点位跟着移动

需要等比例缩放的内容 html <div class="boxImg" ref="cont" style="position: absolute; top: 0; left: 0"><!-- 这里放上需要等比例缩放的内容 --> </div> 在vue中 methods 中写 methods: {updateScaleRatio(ImgObj, ma…

linux - 搭建部署ftp服务器

ftp 服务&#xff1a; 实现ftp功能的一个服务&#xff0c;安装vsftpd软件搭建一台ftp服务器 ftp协议&#xff1a; 文件传输协议 &#xff08;file transfer protocol&#xff09;&#xff0c;在不同的机器之间实现文件传输功能&#xff0c; 例如 视频文件下载&#xff0c;…

前端之html和css(2)

目录 一&#xff0c;html 1&#xff0c;文本相关标签 2&#xff0c;列表标签 3&#xff0c;图片标签 4&#xff0c;超链接 5&#xff0c;表格标签 table 6&#xff0c;表单 form 7&#xff0c;分区标签 二&#xff0c;css层叠样式表 1&#xff0c;css样式代码的三种引入…

【职场必备知识】一文搞懂五险一金(打工人必备)

社保局电话&#xff1a;12333五险一金非常重要的是&#xff1a;缴纳基数和缴纳比例&#xff01; 文章目录五险一金是什么五险一金缴纳比例养老保险养老保险构成退休年龄医疗保险生育险工伤保险失业险公积金补充&#xff1a;常见问题“五险二金”多出来的“一金”是什么&#xf…

Firewall Analyzer防火墙管理

企业防火墙管理 典型的企业网络安全基础设施包括传统防火墙、下一代防火墙 (NGFW)、虚拟专用网络 (VPN) 和来自多个供应商的代理服务器。网络安全管理&#xff0c;特别是防火墙安全管理尤其棘手&#xff0c;因为每个供应商的能力和技术差异很大。然而&#xff0c;市场上有许多…

kubernetes-Service服务发现

目录 一、Service基本概念 1、Pod的特征 1. Pod等资源的概念 2.解决pod进行如此多变化时的解决方案 2、Service 1. Kubernetes Service 定义了这样一种抽象&#xff1a; 2. Service的实现类型 3、Service模型 4、Endpoint Controller 5、Kube-proxy iptables 6、Kube…

ESP8266-Arduino编程实例-OLED-SSD1306(I2C)显示屏驱动

OLED-SSD1306(I2C)显示屏驱动 1、OLED介绍 OLED显示屏是指有机电激发光二极管(OrganicLight-EmittingDiode,OLED)由于同时具备自发光,不需背光源、对比度高、厚度薄、视角广、反应速度快、可用于挠曲性面板、使用温度范围广、构造及制程较简单等优异之特性,被认为是下一…

MSSQL注入 — 反弹注入

注意&#xff1a;仅用于本人学习的笔记记录&#xff0c;禁止进行传播分享&#xff0c;一旦造成严重后果与本人无关&#xff01;&#xff01;&#xff01; 一、MSSQL反弹注入使用场景 MSSQL>SQL Server MSSQL注入&#xff1a; 反弹注入>注入手法比较偏门(oob) 把查询…

《代码随想录》一刷记录

文章目录前言二、程序的性能分析时间复杂度分析递归算法的时间复杂度分析编程语言的内存管理内存对齐空间复杂度分析递归算法的空间复杂度分析以空间换时间是常见的优化思路三、数组二分查找移除元素长度最小的子数组螺旋矩阵四、链表链表的定义移除链表元素链表常见的操作反转…