基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对现有图像语义理解模型存在描述不充分以及视觉属性冗余的问题,提出了一种带有视觉三元组标签且能够挖掘潜在信息的图像语义理解模型VT-BLSTM.首先,使用卷积神经网络提取图像的全局特征和视觉三元组标签;其次,构建双向长短期神经网络,并利用改进的双注意力模型分别获得动态视觉特征和动态文本特征,融合该两者特征得到视觉语义上下文;最后,融合视觉语义上下文、视觉三元组和神经网络隐含层特征,比较前向和后向长短期神经网络的输出结果,得到对应时刻的单词.在Flickr8K和Flickr30K数据集上的实验结果表明,本文提出的双注意力模型VT-BLSTM能够自主地选择文本特征和视觉特征参与生成单词的比例,并且结合历史时刻和未来时刻获得更丰富的视觉信息,在少量视觉属性的前提下也能生成质量较高的句子,并在多个统计指标上超过同类其他方法.
推荐文章
结合引导解码和视觉注意力的图像语义描述模型
图像描述
多示例学习
引导解码
视觉注意力机制
基于空间注意力与图卷积的多标签图像分类算法
图卷积网络
多标签图像分类
空间注意力
特征融合
基于全局和局部注意力交互机制的语义理解模型
注意力交互
语义理解
完形填空
特征融合
融入视觉常识和注意力的图像描述
图像描述
注意力机制
视觉常识
注意偏差
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 融合多标签和双注意力机制的图像语义理解模型
来源期刊 智能计算机与应用 学科 工学
关键词 图像语义理解 双向长短期记忆网络 视觉属性 注意力机制
年,卷(期) 2020,(1) 所属期刊栏目 学术研究与应用
研究方向 页码范围 12-21
页数 10页 分类号 TP391
字数 9202字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 应捷 上海理工大学测试技术与信息工程研究所 37 110 6.0 8.0
2 黄影平 上海理工大学光电信息与计算机工程学院 24 117 5.0 10.0
3 吴倩 上海理工大学光电信息与计算机工程学院 3 20 2.0 3.0
4 胡文凯 上海理工大学光电信息与计算机工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(3)
  • 参考文献(3)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
图像语义理解
双向长短期记忆网络
视觉属性
注意力机制
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
智能计算机与应用
双月刊
2095-2163
23-1573/TN
大16开
哈尔滨市南岗区繁荣街155号(哈工大新技术楼916室)
14-144
1985
chi
出版文献量(篇)
6183
总下载数(次)
26
相关基金
上海市自然科学基金
英文译名:
官方网址:http://www.lawyee.net/Act/Act_Display.asp?RID=46696
项目类型:面上项目
学科类型:
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导