用于文化遗产的VQA(基于ArtPedia数据集)

news/2024/5/17 17:14:48/文章来源:https://blog.csdn.net/weixin_44845357/article/details/126896883

艺术 文化遗产领域 VQA parper 阅读

Visual Question Answering for Cultural Heritage


文章目录

  • 艺术 文化遗产领域 VQA parper 阅读
  • 前言
  • 方法
    • visual Question Answering with visual and contextual questions
    • Question Classifier Module
    • Contextual Question Answering Module
    • Visual Question Answering Module
  • 实验结果
    • 问题分类器Question Classifier
    • Contextual Question Answering
    • Visual Question Answering
    • 完整模型 Full pipeline
  • 总结
  • 阅读者的总结


前言

尽管如此,与绘画和雕塑互动最频繁的方式仍然是拍照。然而,图像本身只能传达艺术品的美学,缺乏充分理解和欣赏它所需要的信息。通常,这些额外的知识既来自艺术品本身(因此也来自描绘它的图像),也来自外部的知识来源,如信息表。前者可以通过计算机视觉算法推断出来,而后者则需要更结构化的数据来将视觉内容与相关信息配对。无论其来源如何,这些信息仍然必须有效地传输给用户。在计算机视觉领域,一个流行的新兴趋势是视觉问答(VQA),用户可以通过自然语言提出问题,与神经网络进行交互,并获得关于视觉内容的答案。我们相信,这将是博物馆参观的智能音频导览和个人智能手机上简单的图像浏览的演变。这将把经典的音频导览变成一个智能的私人教练,游客可以通过询问专注于特定兴趣的解释与之互动。这样做的好处是双重的:一方面,访问者的认知负担将减少,将信息流限制在用户真正想要听到的内容上;另一方面,它提出了与向导互动的最自然的方式,有利于参与。
在这里插入图片描述

方法

visual Question Answering with visual and contextual questions

这项工作的主要思想是对输入问题的类型(视觉或上下文)进行分类,以便由最合适的子模型回答问题。我们依靠问题分类器来理解问题是否只涉及图像的视觉特征,或者是否需要外部信息源来提供正确答案。然后,根据分类器的输出,将问题提交给VQA或QA模型。在这两种情况下,都必须对问题进行分析和理解,但是使用两种不同的体系结构是由处理不同的额外信息源的需要驱动的。如果问题是可视化的,那么答案就会从图像中生成,而如果问题是上下文相关的,那么答案就会使用外部文本描述生成。

我们的方法用来回答一个问题的总体流程(见图1)如下:
(i)问题分类。问题在问题分类器模块的输入中给出,该模块确定问题是上下文的还是可视化的。
(ii)[可视化]问答。根据预测的问题类型,相应的模块将被激活以生成答案。(a)如果问题是上下文相关的,则将问题以输入的形式提供给一个问答模块,该模块接受输入,也接受对回答问题有用的外部信息。这个系统只根据这个外部信息产生一个输出答案。
(b)如果问题是可视化的,则将问题和图像作为输入输入到可视化问答模块。该系统根据图像的内容生成一个输出答案。

Question Classifier Module

问题分类器模块由Bert[5]模块组成,用于文本分类。BERT利用Transformer[21],这是一种注意机制,可以学习文本中单词(或子单词)之间的上下文关系。对Transformer进行双向训练,以便对语言上下文和语言流有更深入的了解。这个语言模型非常通用,因为它可以用于不同的任务,如文本分类,句子中的下一个单词预测,问题回答和实体识别。通过在Transformer输出上添加一个分类层,这个模型变成了一个问题分类体系结构。输入问题被表示为三种不同嵌入的总和:令牌嵌入、分段嵌入和位置嵌入。此外,在问题的开头和结尾添加了两个特殊的标记。

Contextual Question Answering Module

用于问答任务的模型是关注该任务的另一个Bert模块。在这种情况下,模块同时接受问题和文本描述的输入。由于该系统使用文本信息回答问题,因此文本必须包含相关信息以生成适当的答案。

Visual Question Answering Module

可视化问题回答模块的体系结构类似于Anderson等人在自底向上-自顶向下方法中使用的体系结构。在这里,图像的显著区域由Visual Genome数据集[12]上预训练的Faster R-CNN[18]提取。问题的单词用嵌入[17]的Glove表示,然后用门通循环单元(Gated Recurrent Unit, GRU)对问题进行编码,将每个问题压缩成一个固定大小的描述符。建立了编码问题和显著图像区域之间的注意机制,以权衡对回答问题有用的候选区域。然后将加权区域表示和问题表示投影到一个公共空间,并通过一个元素乘积连接。最后,联合表示通过两个完全连接的层和一个产生输出答案的softmax激活。

实验结果

为了评价模型的性能,我们进行了不同的实验。我们通过独立分析每个组件来衡量模型的性能。

问题分类器Question Classifier

我们用OK-VQA和VQA v2数据集的问题训练问题分类器模块。我们从VQA v2中提取了一些视觉问题,这些问题的数量与OK-VQA中需要外部知识的问题数量相等。得到的数据集被分成训练集和测试集。问题分类器应该从问题的结构中理解答案是否与视觉内容有关。这是一个通用的分类器,与任务的领域无关。事实上,VQA v2和OK-VQA包含通用图像,而我们感兴趣的是在文化遗产领域的应用。通过对VQA/OK-VQA数据集和由Artpedia[20]子集组成的新数据集进行评估,我们展示了我们方法的有效性及其转移到文化遗产领域的能力。由于该数据集不包含问题,而只包含图像和描述,我们从该数据集中提取了30张图像,并为它们添加了数量不定的视觉和上下文问题(两类从3到5个)。我们的问题分类器模块的准确性如表1所示。我们可以观察到,在大多数情况下,它能够正确地预测问题的类型。

Contextual Question Answering

我们在包含30张注释图片的Artpedia子集上测试我们的问答模块。特别地,我们在三个不同的实验中测试了我们的模块的准确性:语境问题测试、视觉问题测试和视觉和语境问题同时测试。请注意,视觉和上下文模块的输出是不同的,因为VQA被视为一个分类问题,而对于QA,从表2所示的结果中,我们可以推断,我们的问题回答模块对上下文问题工作得很好,而对视觉问题的结果更差。这可以从视觉问题是指在ArtPedia的视觉句子中无法描述的绘画的可见细节来证明。

Visual Question Answering

与为问答模块进行的测试类似,我们在视觉和上下文问题上对视觉问答模块进行评估。表2显示了我们的可视化问题回答模型的结果。相反,我们可以从问题回答模块观察到,该模型在视觉问题上表现良好,但不能正确回答上下文问题。这是由于上下文问题需要外部知识(如作者、年份),而纯视觉问题回答引擎无法获取这些信息。

完整模型 Full pipeline

最后,我们将所有模块的功能结合在一起,并对视觉和上下文问题进行测试,获得了0.570的准确性。由于有了问题分类器,完整的管道能够正确地区分视觉问题和上下文问题。可视化问题回答模块和问题回答模块接收它们能够回答的几乎所有问题作为输入(问题回答模块的上下文问题和可视化问题回答模块的可视化问题)。因此,整个模型的性能超过了两个单一应答模块。图2显示了管道的三个组成部分的一些定性结果。这些组件正确地处理了大多数问题,但是可以观察到一些常见的故障情况。例如,问题回答模型可能会在答案中添加一些基本事实中不存在的细节,而视觉问题回答模型可能会将绘画的某些元素与类似的对象混淆。

总结

在本文中,我们提出了一种文化遗产领域的视觉问题回答方法。我们已经解决了两个重要问题:需要处理包含的图像和上下文知识,以及缺乏数据可用性。我们提出的模型结合了VQA和QA模型的功能,依赖于一个问题分类器来预测它是指视觉内容还是上下文内容。为了评估我们模型的有效性,我们用可视化的和上下文相关的问答对注释了ArtPedia数据集的一个子集。

阅读者的总结

感觉本文蹭了艺术VQA的热度。
简单说,就是在进行回答之前,先将question进行分类,然后分别进行VQA回答和QA回答,得到答案。
以上module在3个数据集上跑,结果就是,question分类任务的效果不错,对VQA的回答效果不错,但是QA任务的效果不行(也就是开放型回答的效果just soso)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_9591.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3 | HighCharts实战自定义封装之径向条形图

1.前言 目前正在做vue3的数据可视化项目,vue3的组合式api写法十分方便,可以有各种玩法,有兴趣的同学可以看我个人主页的其他文章。难点是在网上找了一圈的有关径向条形图的示例都没有好的解决方案,决心亲自下手,在其中…

CSP2021初赛游记

csp2022开打,把去年的游记找出来,在这里补了 CSP2021初赛游记 早上7:30去省初门口等crxis,可以和他一起做地铁去,然而最后也就3个学生,准确来说是3个学生加1个家长在等。我当时在微信里和老师说:" 老师你快点过来呀 人好多啊 一大群人在催你 浩浩荡荡 人山人海 局面…

WebKitX ActiveX 5.0.0.15221 Crack

WebKitX ActiveX 封装了 Chromium Embedded Framework (CEF3) 以用于 OLE/COM 语言。Chromium Embedded Framework 封装了 WebKit Blink HTML5 Renderer 和 Google V8 JavaScript Engine。这是一个用于商业用途的生产级稳定组件,将真正在您的桌面和终端应用程序中添…

内网渗透之Msf-Socks代理实战(CFS三层靶场渗透过程及思路)

前言 作者简介:不知名白帽,网络安全学习者。 博客主页:https://blog.csdn.net/m0_63127854?typeblog 内网渗透专栏:https://blog.csdn.net/m0_63127854/category_11885934.html 网络安全交流社区:https://bbs.csdn.ne…

【操作系统】文件系统

文章目录硬盘1 - 基本组成2 - 存储机制Linux文件系统1 - 常见文件类型2 - 文件系统的组成2.1 - 定义2.2 - 作用2.3 - 常见类型2.4 - 分配文件系统3 - 数据存储 层次3.1 - inode表3.2 - Datablock3.3 - Superblock3.4 - GDT 全局描述表4 - 虚拟文件系统 - VFS5 - 软链接与硬链接…

三十页论文与代码已更新 2022数学建模国赛C题 古代玻璃制品的成分分析与鉴别

完整文档获取方式在文章最后 完整文档获取方式在文章最后 完整文档获取方式在文章最后 问题一分析:请在观看问题一分析前先观看附件1数据集的分析与处理(在面包多附件处进行下载)。针对问题1,问题1分为三小问。 首先,需要对玻璃文物的表面风化与其玻璃类型、纹饰和颜色的…

【机器学习】最大期望算法(EM)

1. 什么是EM算法 最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。 最大期望算法经过两…

day10_类和对象的入门

软件存在的意义就是为了解决现实世界当中的问题,它必然模拟现实世界,也就是说现实世界中有什么,软件中就对应有什么。面向对象编程思想中关注点是“对象”或者“事物”,那么在编程语言当中要想创建对象则必须先有类,那…

C/C++语言的服务器LS调研 (Language Server 实现代码索引 跳转定义 智能提示等功能)

LS是什么 先说一下LSP(Language Server Protocol),它是语言服务器协议,是一种被用于编辑器或集成开发环境 与 支持比如自动补全,定义跳转,查找所有引用等语言特性的语言服务器(LS,(…

Prometheus系列第五篇一核心一ClientLib[java]系统架构

文章目录系统架构架构图架构说明源码架构总结文本协议详细介绍系统架构 架构图 架构说明 类说明CollectorRegister所有Collector的容器,exporter从CollectorRegister获取所有的Metrics度量信息Collector一个Collector为一个metrics的收集器,收集该metrics的labels对应的所有l…

MySQL查询性能优化七种武器之链路追踪

MySQL优化器可以生成Explain执行计划,我们可以通过执行计划查看是否使用了索引,使用了哪种索引? 但是到底为什么会使用这个索引,我们却无从得知。 好在MySQL提供了一个好用的工具 — optimizer trace(优化器追踪&…

报告分享|中国音数协游戏工委:2022中国移动游戏市场广告营销报告

全文链接:http://tecdat.cn/?p=28490 中国音数协游戏工委、中国游戏产业研究院、京师游戏研究实验室、CC-Smart新传智库、腾讯广告共同发布《2022中国移动游戏市场广告营销报告》,报告从政策背景Policy background、市场概览Market Overview、投放特征Launch characteristic…

【UV打印机】理光喷头组合说明(5H)

00. 目录 文章目录00. 目录01. 概述02. 1H2C_4C03. 1H2C_6C04. 1H2C_6C2WV05. 1H2C_2(4C)06. 1H2C_1/n(4CW)07. 1H2C_1/n(6CW)08. 1H2C_4C3WV09. 1H2C_2(4C)W10. 1H2C_4C_CWC11. 1H2C_4C3WPF V12. 1H2C_6C2WPF V13. 附录01. 概述 喷车板:一块GENX_5H 02. 1H2C_4C …

【linux】shell 编程之流程控制语句详解

前言 可以说,在任何一门编程语言中都离不开流程控制语句,使用流程控制语句可以帮助程序处理各类复杂的操作,常用的流程控制语句,比如: if-else,while,for循环等,在linux 的shell 编…

2022百度之星程序设计大赛 - 复赛 1003 最大值

problem 题目标题-最大值 现有一个长度为 nn 的序列 a_1,a_2,\cdots,a_na 1 ​ ,a 2 ​ ,⋯,a n ​ 。记 mx(a)mx(a) 为整个序列 aa 的最大值,即 mx(a)\max(a_1,a_2,\cdots ,a_n)mx(a)max(a 1 ​ ,a 2 ​ ,⋯,a n ​ )。 对于一个序列 aa,记其权值 f(a)…

SpringBoot原理篇(2)—自定义starter

目录 一、自定义starter 1.1 案例:统计独立IP访问次数 1.2 自定义starter 一、自定义starter 1.1 案例:统计独立IP访问次数 1.2 自定义starter 业务功能开发自动配置类配置模拟调用开启定时任务功能设置定时任务定义属性类,加载对应属性设…

【spring cloud】服务网关——gateway

不同行业之间,都会存在一些业务属性上的差距。对于金融领域的应用软件来说,因其涉及到钱等因素,所以在业务上会有以下独特属性: 稳定性。金融领域跟钱强相关,这对于业务稳定性就有着非常严格的要求,稳定性一…

【Linux】云服务器的购买与Linux远程连接

目录 一、云服务器的选用与购买 1、选用云服务器而不是虚拟机的理由 2、如何挑选云服务器 3、云服务器的配置 二、使用Xshell本地连接云服务器 1、安装Xshell 2、连接云服务器 3、创建、删除用户 三、Xshell部分快捷键 一、云服务器的选用与购买 1、选用云服务器而不…

Linux操作系统——系统用户与用户组管理

目录 一. 用户和用户组管理 1.1 新增组的命令groupadd 1.2 删除组的命令groupdel 1.3 增加用户的命令useradd 1.4 删除账户的命令userdel 二. 用户密码管理 2.1 认识/etc/passwd和/etc/shadow 2.2 /etc/passwd解说 2.3 使用命令chfn更改用户的finger 2.4 /etc…

TCP三次握手和四次挥手,中间失败了会发生什么?

TCP三次握手和四次挥手,中间失败了会发生什么?三次握手:第一次握手丢失了,会发生什么?第二次握手丢失后,会发生什么?第三次握手丢失了,会发生什么?四次挥手:第…