摘要
TextVQA任务中包含文本的视觉场景需要同时理解图像、问题和图像中的文本来推理答案。然而,大多数现有的跨模态任务只涉及两种模态。因此,对于跨三种模态的交互建模的方法很少。为了弥补这一差距,我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块,其中缩放点积注意方法应用于模态间和模态内关系的建模。此外,我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块,构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法,以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明,该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法,进行了广泛的烧蚀研究。我们的代码可以在https://github.com/zhangshengHust/mlci上公开获得。
原始语言 | 英语 |
---|---|
页面(从) | 1607 - 1623 |
页数 | 17 |
杂志 | 万维网 |
体积 | 25 |
必须 | |
发布状态 | 发表,2022年7月 |
关键字
- 多层次特征融合
- 多模态特征交互
- 光学字符识别
- Self-attention机制
- 可视化问答