©PaperWeekly 原创 · 作者 | 武祥宇

单位 | 南京理工大学博士生

研究方向 | 多模态学习

论文标题：

Declaration-based Prompt Tuning for Visual Question Answering

收录会议：

IJCAI 2022

论文链接：

https://arxiv.org/abs/2205.02456

代码链接：

https://github.com/cciiplab/dpt

简介

1.1 问题

近年来，“预训练+微调”范式在跨模态任务中取得了巨大的成功，例如视觉问答（VQA），首先通过自监督任务（如 MLM、ITM 和 ITC）在大规模图文数据集上训练优化 visual-language pre-training 模型，再通过添加一个新的特定于任务的目标函数（如 answer prediction）进行微调以适应下游任务（如 VQA）。

然而，预训练任务目标和微调任务目标形式的不一致性（如微调 VQA 属于输入 image 和 question 的多分类任务，和预训练的任何一个任务都有很大的区别），不仅严重限制了预训练 VL 模型对下游任务的泛化，而且需要引入额外的参数和需要大量有标签数据进行微调。

1.2 方案

作者提出了一种新的 VL 微调范式（Declaration-based Prompt Tuning，简称DPT），这是第一次尝试使用陈述句进行视觉回答的 Prompt Tuning，即将下游 VQA 任务的优化目标形式重新转化为预训练阶段的形式，最大限度地缩小两个阶段之间的差距，促进预训练模型对下游任务的有效适应。

具体而言，DPT 通过：1）textual adaptation，将给定的 question 疑问句转化为陈述句形式进行 Prompt Tuning；2）task adaptation，以预训练阶段的任务目标来优化 VQA，即把 VQA 多分类任务转化为 MLM 和 ITM 任务，通过从陈述句中恢复 mask token 并选择最匹配的 image 来解决 VQA 问题的任务适应。

在 GQA 数据集上的实验结果表明，DPT 在 fully-supervised（2.68%）和 zero-shot/fewshot（over 31%）的准确性方面都优于其他微调方案。

方法

3.1 Preliminary

给定一个在大规模图文数据集上预训练好的模型，微调 VQA 表示为输入一系列从 image 提取的 region features 和从 question 提取的 text features，将其拼接 fed to 预训练好的模型，输出的 [CLS] token通过额外的、特定于 VQA 任务的 MLP 层输出答案。

3.2 Declaration-based Prompt Tuning

如图 1（b-d）所示，想要将微调 VQA 任务转换为预训练任务的形式，有两个挑战，一个是文本输入格式的不同（question vs declaration）和任务目标形式（MLM&ITM vs answer classification）的不同。因此，作者提出（1）Textual Adaptation，将问题转换为相应的陈述句；（2）Task Adaptation，将答案预测重新制定为 MLM 和 ITM 任务。

图2为整体方法架构，其中左下角 Declaration Generation 为将问题疑问句转化为陈述句的形式。最下方为 VQA 模型的输入，包含 text features 和 image region features，Multi-Layer Transformers 为预训练好的模型，如 VinVL、Oscar、VisualBert 等等，上方为 Task Adaptation，对应预训练模型的 MLM 和 ITM 任务，目的是为了预测 top-k 个候选答案，并通过图文匹配的方式选择最匹配的答案。

Textual Adaptation via Declaration Generation. Textual Adaptation 旨在将疑问句转化为陈述句，例如，“What is the red object left of the girl？” 的陈述句形式是 “A red [MASK] is left of the girl.”。为此，作者引入了陈述生成，将此过程表述为翻译问题，其中源文本和目标文本分别为问题疑问句和对应的陈述句。

首先使用来自 GQA 数据集的注释构建一个陈述句数据集，其中 “fullAnswer” 被视为陈述句，“fullAnswer” 中的 short answer word/phrase 被替换为 [MASK]。然后，在该数据集上训练 encoder-decoder 模型 T5，并使用 auto-regressive cross-entropy 进行优化。最后，该模型可用于将各种 VQA 数据集的问题疑问句转换为陈述句。

Task Adaptation. 将问题疑问句转化为陈述句形式后，就可以将 VQA 任务转化为预训练的 MLM 和 ITM 任务，包括（1）Adaptation to MLM task. 如图 2 上方，将 VQA 重新表述为MLM 任务，首先将疑问句和陈述句拼接成文本输入，见图 2 下方：

其中 Q 表示原始问题，D 表示原始问题转化后的带有 [MASK] 的陈述句（如“a red [MASK] is left of the girl”），然后将其送入预训练好的模型，输出的 [CLS] 和 [MASK] 拼接用于预测并选择 top-k 个候选答案：

（2）Adaptation to ITM task. 如图 2 上方，为了将 VQA 转化为 ITM 任务，陈述句 D 里的 [MASK] 被依次替换为 top-k 个答案，生成 k 个完整的陈述句，如 “a red tray/food/cloth is left of the girl.”：

通过这种方式，将完整的陈述句和原始图像再次输入预训练好的模型，输出的 [CLS] 和 answer token 拼接并预测图文匹配分数：

分数最高的答案即为最终预测的答案。

实验

Datasets. GQA，VQA v2.0

表 1 为在 GQA 数据集上的结果，第三块打勾的模型方法均为多模态预训练+微调的模型，作者提出的 DPT 模型是在建立在 VinVL 模型基础上的 Prompt Tuning，可以看到在 GQA 数据集 balance split 上，DPT 较 VinVL 模型提升接近 3.0%，最下一行在 GQA 全部数据集样本上，DPT 较 VinVL 也有着小幅度提升。

表 2 中，（1）Baseline 为对 VinVL 模型标准 fine-tuning，即不含有任何prompts；（2）Mask为 “Answer: [MASK]” 的 prompt 形式，模型预测的 mask 即为答案；（3）Dynamic 为 “Answer: [V1][V2]…[V16][MASK]” 的形式，其中 ‘[V1]’-‘[V16]’ 表示在微调期间联合训练的可学习的 token；（4）Declaration 为 “Answer: D” 形式，D 即为作者提出的带有 Mask 的陈述句形式。[C] 和 [M] 为 [CLS] 和 [Maks] token，作为模型输出的表征。

表 3 为基于不同的预训练模型进行 DPT 微调的结果，可以看到，在不同的多模态预训练模型的基础上应用 Declaration Promps Tuning 均有提升。

总结

作者提出将视觉问答任务重新表述为 MLM 和 ITM 的任务，最大限度地缩小视觉语言（VL）预训练和微调阶段之间不一致的差距。为此，首先将问题疑问句转换为陈述句，使用保留的 [MASK] 或候选答案，以减少文本输入格式的差异。然后，通过任务适应将 VQA 重新表述为预训练的格式，以 MLM 和 ITM 任务的方式解决 VQA 问题。在两个数据集上的大量实验验证了 DPT 范式在不同预训练 VL 模型上的有效性和可泛化性，这些模型在 fully-supervised 和 zero-shot/few-shot 下都适用。

更多阅读