基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有的图像描述生成方法大多只使用图像的视觉信息来指导描述的生成,缺乏有效的场景语义信息的指导,而且目前的视觉注意机制也无法调整对图像注意的聚焦强度.针对这些问题,本文首先提出了一种改进的视觉注意模型,引入聚焦强度系数自动调整注意强度.在解码器的每个时间步,通过模型的上下文信息和图像信息计算注意机制的聚焦强度系数,并通过该系数自动调整注意机制的"软"、"硬"强度,从而提取到更准确的图像视觉信息.此外,本文利用潜在狄利克雷分布模型与多层感知机提取出一系列与图像场景相关的主题词来表示图像场景语义信息,并将这些信息添加到语言生成模型中来指导单词的生成.由于图像的场景主题信息是通过分析描述文本获得,包含描述的全局信息,所以模型可以生成一些适合图像场景的重要单词.最后,本文利用注意机制来确定模型在解码的每一时刻所关注的图像视觉信息和场景语义信息,并将它们结合起来共同指导模型生成更加准确且符合场景主题的描述.实验评估在MSCOCO和Flickr30k两个标准数据集上进行,实验结果表明本文方法能够生成更加准确的描述,并且在整体的评价指标上与基线方法相比有3%左右的性能提升.
推荐文章
结合引导解码和视觉注意力的图像语义描述模型
图像描述
多示例学习
引导解码
视觉注意力机制
融入视觉常识和注意力的图像描述
图像描述
注意力机制
视觉常识
注意偏差
基于场景语义的遥感图像目标识别
高分辨率遥感图像
场景语义识别
视觉特征表示
概率潜在语义分析
基于协方差描述子和LogitBoost的交通场景图像分割
场景分割
运动特征
协方差描述子
LogitBoost
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合视觉特征和场景语义的图像描述生成
来源期刊 计算机学报 学科 工学
关键词 图像描述生成 注意机制 场景语义 编码器-解码器框架 强化学习
年,卷(期) 2020,(9) 所属期刊栏目
研究方向 页码范围 1624-1640
页数 17页 分类号 TP391
字数 10960字 语种 中文
DOI 10.11897/SP.J.1016.2020.01624
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 史忠植 中国科学院计算技术研究所智能信息处理重点实验室 232 9166 52.0 89.0
2 李志欣 广西师范大学广西多源信息挖掘与安全重点实验室 30 144 7.0 11.0
3 张灿龙 广西师范大学广西多源信息挖掘与安全重点实验室 41 194 8.0 11.0
4 马慧芳 广西师范大学广西多源信息挖掘与安全重点实验室 59 520 12.0 21.0
8 魏海洋 广西师范大学广西多源信息挖掘与安全重点实验室 1 0 0.0 0.0
9 黄飞成 广西师范大学广西多源信息挖掘与安全重点实验室 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
图像描述生成
注意机制
场景语义
编码器-解码器框架
强化学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导