原文服务方: 微电子学与计算机       
摘要:
随着深度学习的兴起和不断发展,视觉问答领域的研究取得了显著进展,当前较多视觉问答模型通过引入注意力机制和相关迭代操作来提取图像区域与高频疑问词对的相关性,但在获取图像与问题的空间语义关联方面的有效性较低,从而影响答案的准确性.为此,提出一种基于MobileNetV3网络及注意力特征融合的视觉问答模型,首先,为优化图像特征提取模块,引入MobileNetV3网络,并加入空间金字塔池化结构,在减少网络模型计算复杂度的同时保证模型准确率.此外,对输出分类器进行改进,将其中的特征融合方式使用基于注意力特征融合方式连接,提升问答的准确率.最后在公开数据集VQA 2.0上进行对比实验,结果表明文章所提模型与当前主流模型相比更具优越性.
推荐文章
基于视觉注意力变化的视频质量评估模型
视频感知质量
编码参数
视频内容
突发事件
结合引导解码和视觉注意力的图像语义描述模型
图像描述
多示例学习
引导解码
视觉注意力机制
融入视觉常识和注意力的图像描述
图像描述
注意力机制
视觉常识
注意偏差
基于视觉注意力模型的红外人体图像兴趣区域提取
注意力模型
投影分割
矩形度
复杂度
兴趣区域提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于注意力特征融合的视觉问答模型
来源期刊 学科 工学
关键词 视觉问答 注意力机制 MobileNetV3网络 特征融合
年,卷(期) 2022,(4) 所属期刊栏目 大数据与云计算
研究方向 页码范围 83-90
页数 7页 分类号 TP391
字数 语种 中文
DOI 10.19304/J.ISSN1000-7180.2021.1102
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
视觉问答
注意力机制
MobileNetV3网络
特征融合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微电子学与计算机
月刊
1000-7180
61-1123/TN
大16开
1972-01-01
chi
出版文献量(篇)
9826
总下载数(次)
0
总被引数(次)
59060
论文1v1指导