Efficient Large-Scale Multi-Modal Classification 多模态学习论文阅读

2020/7/2 10:01:59 人评论 次浏览 分类:学习教程

引言

多模态问题我们应该不会陌生。

Efficient Large-Scale Multi-Modal Classification(AAAI2018)

摘要

早期的互联网主要是基于文本的,但现代数字世界正变得越来越多模式。这里,我们研究多模态分类,其中一个模态是离散的,例如文本;而另一个是连续的,例如从卷积神经网络传输的视觉表示。我们关注的场景是,我们必须能够快速地对大量数据进行分类。研究了实现多模态融合的各种方法,并分析了它们在分类精度和计算效率方面的优缺点。我们的研究结果表明,即使使用简单的融合方法,在一系列多模态分类任务中,包含连续信息比文本更能提高性能。此外,为了进一步加速和简化融合过程,我们尝试将连续特征离散化。我们的结果表明,与离散化特征融合的性能优于纯文本分类,其计算成本仅为全多模融合的一小部分,同时还具有更好的可解释性。

动机

  1. 尽管最初的网络基本上是基于文本的,但近十年来,多模式内容激增:每天都有数以十亿计的图片和视频在网上发布和分享。文本要么被取代为主导形式,比如Instagram的帖子或YouTube视频,要么像今天的大多数网页一样,用非文本内容进行扩充。这使得多模态分类成为一个重要的问题。
  2. 网络将越来越多模式化,使得多模式分类问题变得更加相关。同时,随着Web的不断发展,我们必须能够高效地处理越来越多的数据,这就使得关注可以应用于大规模场景的机器学习方法变得非常重要。

本研究旨在将这两个问题结合起来进行研究:
将不同模式的数据合并(即融合)的最佳方式是什么?(what is the best way to combine (i.e., fuse) data from different modalities?)
以及如何以最高效的方式进行合并?(how can we do so in the most
efficient manner?)

贡献

  1. 首先,我们比较了各种多模态融合方法,分析了它们的优缺点,并且证明了往往简单的模型是可取的。
  2. 其次,为了进一步加速和简化融合过程,我们对连续特征进行了离散化实验。
  3. 第三,我们研究离散化特征的学习表征,并表明它们产生了有益的副作用可解释性。

这项工作是第一次尝试检验在多模态分类中精度/速度的权衡。
本文工作为其他方法提供了一个坚实且可扩展的Baseline;我们对离散化特征的研究表明,多模态分类不需要很大的性能损失,并且在大规模场景中是可行的。

方法论

首先,作者采用了高效快速的文本分类方法FastText。具体地说,我们使用2048维连续特征,这些特征是通过迁移(转移)152层ResNet的预训练softmax层获得的。其中ResNet是经过ImageNet分类任务的预训练;对于大规模的FlickrTag数据集,我们使用ResNet-34的512维特征。

目标函数定义如下,给定一组NN个文档,目标是最小化这些类的负对数可能性:在这里插入图片描述

其中oo是网络的输出,xnx_n是多模式输入,yny_n是标签。

基线

Text 第一个基线由FastText、word representation learning和sentence classification组成。也就是说,我们完全忽略了视觉信号,只使用文本信息。公式化如下:
在这里插入图片描述
其中WWUU是权重矩阵,xtx^t是文本特征的规范表示。
Continuous 第二个基线包括仅在传输的ResNet特征上训练分类器。也就是说,我们忽略文本信息,只使用视觉输入,即:
在这里插入图片描述
其中WWVV是权重矩阵,xvx^v是ResNet特征的组成部分。

连续多模态多模型

Additive 我们使用分量加法将两种模式的信息结合起来,即:
在这里插入图片描述
Max-pooling 我们使用分量最大值合并两种模式的信息,即:
在这里插入图片描述

Gated 我们允许用一种模态通过sigmoid非激活函数去激活另一种模态。
在这里插入图片描述 or 在这里插入图片描述
我们可以把这种方法看作是从一种模态到另一种模态的注意力。它在概念上类似于多模门控单元的简化。

Bilinear 最后,为了完全捕获两种不同模式之间的关联,我们研究了一个双线性模型。
在这里插入图片描述
可以被认为是更复杂的多模双线性池化的一个简单版本。我们还实验了一种在双线性模型中引入门控非线性的方法,我们称之为双线性门控。

离散化多模态模型

连续模型的一个缺点是它们需要昂贵的矩阵向量乘法,而存储浮点数的大矩阵则需要很大的空间。我们尝试将连续特征离散化,将连续特征转换为离散的token序列,可以将其视为特殊token,我们将其单独规范化,并在标准的FastText设置中使用。

此外,我们研究了乘积量化(PQ),其中我们将连续向量分成大小相等的子向量,然后对每个子向量执行k均值聚类。对于每个图像,我们随后确定每个子字的最近质心,并将其与子向量索引相结合以获得离散化向量。举个例子:
一个100维度的连续向量xivx_i^v可以被分成10个10维的子向量sis_i。设N(si)N(s_i)表示sis_i的最近质心的指数。那么vv的离散化表示如下:
在这里插入图片描述
我们在文本中包含这些标记,并将它们视为特殊标记。
在这里插入图片描述
其中xdx_d是就离散化的视觉特征,αα是重加权超参数。这里我们可以把离散化特征当作一种文本的”单词“。
乘积量化PQ存在一定的缺陷。它给子向量施加了硬边界,这意味着子向量之间共享的重叠语义内容可能会丢失。本文中引入了一种新的量化方法,称为随机样本量化(RSPQ)。在RSPQ中,过程与PQ相同,唯一的改动是我们在xivx^v_i的随机排列上重复rr次执行PQ。

实验

首先介绍进行性能评估是所使用的多模态数据集,各数据集的定量特性如下表所示:
在这里插入图片描述

自己的想法

作者的核心思想:关注那些足够简单和有效的模型来处理大规模的数据集,同时在基线上获得更好的性能。

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?
    -->