结合视觉特征和场景语义的图像描述生成

史忠植; 张灿龙; 李志欣; 马慧芳; 魏海洋; 黄飞成

文献导航

搜索文章

搜索思路

结合视觉特征和场景语义的图像描述生成

作者：

史忠植张灿龙李志欣马慧芳魏海洋黄飞成

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

图像描述生成

注意机制

场景语义

编码器-解码器框架

强化学习

摘要：

现有的图像描述生成方法大多只使用图像的视觉信息来指导描述的生成,缺乏有效的场景语义信息的指导,而且目前的视觉注意机制也无法调整对图像注意的聚焦强度.针对这些问题,本文首先提出了一种改进的视觉注意模型,引入聚焦强度系数自动调整注意强度.在解码器的每个时间步,通过模型的上下文信息和图像信息计算注意机制的聚焦强度系数,并通过该系数自动调整注意机制的"软"、"硬"强度,从而提取到更准确的图像视觉信息.此外,本文利用潜在狄利克雷分布模型与多层感知机提取出一系列与图像场景相关的主题词来表示图像场景语义信息,并将这些信息添加到语言生成模型中来指导单词的生成.由于图像的场景主题信息是通过分析描述文本获得,包含描述的全局信息,所以模型可以生成一些适合图像场景的重要单词.最后,本文利用注意机制来确定模型在解码的每一时刻所关注的图像视觉信息和场景语义信息,并将它们结合起来共同指导模型生成更加准确且符合场景主题的描述.实验评估在MSCOCO和Flickr30k两个标准数据集上进行,实验结果表明本文方法能够生成更加准确的描述,并且在整体的评价指标上与基线方法相比有3％左右的性能提升.

内容分析

关键词云

关键词热度

相关文献总数

(/次)

(/年)

文献信息

篇名	结合视觉特征和场景语义的图像描述生成
来源期刊	计算机学报	学科	工学
关键词	图像描述生成注意机制场景语义编码器-解码器框架强化学习
年，卷（期）	2020,（9）	所属期刊栏目
研究方向		页码范围	1624-1640
页数	17页	分类号	TP391
字数	10960字	语种	中文
DOI	10.11897/SP.J.1016.2020.01624

五维指标

作者信息

序号	姓名	单位	发文数	被引次数	H指数	G指数
1	史忠植	中国科学院计算技术研究所智能信息处理重点实验室	232	9166	52.0	89.0
2	李志欣	广西师范大学广西多源信息挖掘与安全重点实验室	30	144	7.0	11.0
3	张灿龙	广西师范大学广西多源信息挖掘与安全重点实验室	41	194	8.0	11.0
4	马慧芳	广西师范大学广西多源信息挖掘与安全重点实验室	59	520	12.0	21.0
8	魏海洋	广西师范大学广西多源信息挖掘与安全重点实验室	1	0	0.0	0.0
9	黄飞成	广西师范大学广西多源信息挖掘与安全重点实验室	1	0	0.0	0.0