多层次,多模式的交互视觉问题回答在图像中的文本

陈金才,张生,曾江峰,邹福豪,Yuan-Fang李刘涛,陆平

金博宝188欢迎你研究成果对期刊的贡献;文章;金博宝188欢迎你;同行评审

摘要

TextVQA任务中包含文本的视觉场景需要同时理解图像、问题和图像中的文本来推理答案。然而,大多数现有的跨模态任务只涉及两种模态。因此,对于跨三种模态的交互建模的方法很少。为了弥补这一差距,我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块,其中缩放点积注意方法应用于模态间和模态内关系的建模。此外,我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块,构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法,以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明,该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法,进行了广泛的烧蚀研究。我们的代码可以在https://github.com/zhangshengHust/mlci上公开获得。

原始语言 英语
页面(从) 1607 - 1623
页数 17
杂志 万维网
体积 25
必须
发布状态 发表,2022年7月

关键字

  • 多层次特征融合
  • 多模态特征交互
  • 光学字符识别
  • Self-attention机制
  • 可视化问答

引用这

Baidu
map