多层次，多模式的交互视觉问题回答在图像中的文本

陈金才，张生，曾江峰，邹福豪，Yuan-Fang李刘涛，陆平

数据科学与人工智能系

金博宝188欢迎你研究成果：对期刊的贡献;文章;金博宝188欢迎你;同行评审

摘要

TextVQA任务中包含文本的视觉场景需要同时理解图像、问题和图像中的文本来推理答案。然而，大多数现有的跨模态任务只涉及两种模态。因此，对于跨三种模态的交互建模的方法很少。为了弥补这一差距，我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块，其中缩放点积注意方法应用于模态间和模态内关系的建模。此外，我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块，构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法，以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明，该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法，进行了广泛的烧蚀研究。我们的代码可以在https://github.com/zhangshengHust/mlci上公开获得。

原始语言	英语
页面(从)	1607 - 1623
页数	17
杂志	万维网
体积	25
必须	https://doi.org/10.1007/s11280-021-00976-2
发布状态	发表,2022年7月

关键字

多层次特征融合
多模态特征交互
光学字符识别
Self-attention机制
可视化问答

查阅文件

10.1007 / s11280 - 021 - 00976 - 2

其他文件和链接

链接到Scopus中的出版物

引用这

@article {842813 f2781f432ca5a2c0ff57dbc7d1,

title =“图像文本视觉问答的多层次、多模态交互”;

在TextVQA任务中包含文本的视觉场景需要同时理解图像、问题和图像中的文本来推理答案。然而，大多数现有的跨模态任务只涉及两种模态。因此，对于跨三种模态的交互建模的方法很少。为了弥补这一差距，我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块，其中缩放点积注意方法应用于模态间和模态内关系的建模。此外，我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块，构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法，以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明，该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法，进行了广泛的烧蚀研究。我们的代码可在https://github.com/zhangshengHust/mlci上公开获取。”

关键词:“多层次特征融合、多模态特征交互、光学字符识别、自注意机制、视觉问答”

作者:“陈金才、张生、曾江峰、邹福浩、李元芳、刘涛、吕平”

基金资助:国家自然科学基金项目(No. 61672246, No. 61272068, No. 61672254, No. 62102159);华中科技大学学术前沿青年团队计划(No. 2020CFB492);教育部人文社会科学基金项目(No. 21YJC870002)。此外，我们非常感谢NVIDIA公司的支持，他们捐赠了用于本研究的Titan Xp GPU。金博宝188欢迎你出版者版权:{\textcopyright} 2021，作者获得Springer Science+Business Media, LLC (Springer Nature的一部分)的独家授权。

年份= "2022"，

月=七月;

Doi = "10.1007/s11280-021-00976-2"，

language =“英语”，

Volume = "25"，

页= " 1607-1623 "

"万维网-因特网和网络信息系统";

issn = "1386-145X"，

出版社=“伦敦施普林格出版社”;

}

谢谢你。

多层次，多模式的交互视觉问题回答在图像中的文本

AU - Chen, Jincai

张生

吴曾，江峰

AU - Zou, Fuhao

AU - Li，袁芳

刘涛

AU - Lu, Ping

N1 -资助情况:国家自然科学基金项目(61672246、61272068、61672254、62102159)，华中科技大学学术前沿青年团队计划(2020CFB492)，湖北省自然科学基金项目(21YJC870002)。此外，我们非常感谢NVIDIA公司的支持，他们捐赠了用于本研究的Titan Xp GPU。金博宝188欢迎你出版商版权:©2021，作者，在Springer Science+Business Media, LLC (Springer Nature的一部分)的独家许可下。

Py - 2022/7

Y1 - 2022/7

N2 -在TextVQA任务中包含文本的视觉场景需要同时理解图像、问题和图像中的文本来推理答案。然而，大多数现有的跨模态任务只涉及两种模态。因此，对于跨三种模态的交互建模的方法很少。为了弥补这一差距，我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块，其中缩放点积注意方法应用于模态间和模态内关系的建模。此外，我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块，构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法，以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明，该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法，进行了广泛的烧蚀研究。我们的代码可以在https://github.com/zhangshengHust/mlci上公开获得。

AB -在TextVQA任务中包含文本的视觉场景需要同时理解图像，问题和图像中的文本以推理答案。然而，大多数现有的跨模态任务只涉及两种模态。因此，对于跨三种模态的交互建模的方法很少。为了弥补这一差距，我们在这项工作中提出了多个(超过两个)模态的跨模态和模态内交互模块，其中缩放点积注意方法应用于模态间和模态内关系的建模。此外，我们引入了引导信息来辅助注意法学习更准确的关系分布。我们通过堆叠由我们提出的交互模块组成的多个块，构建了TextVQA任务的多级完全交互(MLCI)模型。我们设计了一种多级特征联合预测方法，以互补的方式利用每个块的输出表示来预测答案。在TextVQA数据集上的实验结果表明，该模型的准确率比基线提高了5.42%。为了全面分析所提出的方法，进行了广泛的烧蚀研究。我们的代码可以在https://github.com/zhangshengHust/mlci上公开获得。

KW -多层次特征融合

多模态特征交互

光学字符识别

自我注意机制

KW -视觉问答

UR - http://www.scopus.com/inward/record.url?scp=85119827107&partnerID=8YFLogxK

U2 - 10.1007/s11280-021-00976-2

DO - 10.1007/s11280-021-00976-2

M3 -文章

scopus:85119827107

Vl - 25

Sp - 1607

Ep - 1623

万维网-因特网和网络信息系统

Sn - 1386-145x

呃- - - - - -