基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对现有的图像理解描述方法存在描述句子不丰富、不准确、模型结构复杂、难以训练等问题,该文提出了一种端到端的基于多模态注意力机制(M-AT)的图像理解描述新方法.该方法首先通过关键词图像特征提取模型(K-IFE)提取更优的空间特征和关键词特征,并利用关键词注意力机制模型(K-AT)关注重要描述词语、空间注意机制模型(S-AT)关注图像更重要的区域并简化模型结构,且K-AT和S-AT两种注意力机制可以相互矫正,最终生成更加准确、丰富的图像描述语句.在MSCOCO数据集的实验结果表明该方法是有效的,部分评价指标有2%左右的提升.
推荐文章
融入视觉常识和注意力的图像描述
图像描述
注意力机制
视觉常识
注意偏差
基于卷积注意力机制和多损失联合的跨模态行人重识别
跨模态行人重识别
深度学习
卷积注意力机制
多损失联合
一种基于注意力机制的AUV控制层指令理解方法
水下机器人(AUV)
指令理解
注意力模型
规划
一种基于注意力机制与多模态的图像描述方法
图像描述
注意力机制
LSTM
多模态
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多模态注意力机制的图像理解描述新方法
来源期刊 电子科技大学学报 学科 工学
关键词 注意力机制 图像理解 关键词 多模态 空间
年,卷(期) 2020,(6) 所属期刊栏目 计算机工程与应用
研究方向 页码范围 867-874
页数 8页 分类号 TP312
字数 语种 中文
DOI 10.12178/1001-0548.2019228
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李学明 53 688 15.0 24.0
2 岳贡 1 0 0.0 0.0
3 陈光伟 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
注意力机制
图像理解
关键词
多模态
空间
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子科技大学学报
双月刊
1001-0548
51-1207/T
大16开
成都市成华区建设北路二段四号
62-34
1959
chi
出版文献量(篇)
4185
总下载数(次)
13
总被引数(次)
36111
论文1v1指导