基于视觉—文本关系对齐的跨模态视频片段检索

吴雨菲; 徐童; 杜昊; 陈卓; 陈恩红

文献导航

搜索文章

搜索思路

钛学术文献服务平台 \
学术期刊 \
基础科学期刊 \
自然科学总论期刊 \
中国科学(信息科学)期刊 \
基于视觉—文本关系对齐的跨模态视频片段检索

基于视觉—文本关系对齐的跨模态视频片段检索

作者：

吴雨菲徐童杜昊陈卓陈恩红

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

关系对齐

语言关系

视觉关系

图卷积网络

跨模态视频片段检索

摘要：

近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频片段的全局或局部的特征表达,而忽略了查询文本与视频片段中所蕴含的语义关系在跨模态检索中的匹配.例如,给定查询文本“一个人在打篮球”时,现有检索系统将根据整个查询文本和的视频的特征,或者关注于文本与视频中所表现的实体(如“人”,“篮球”)来计算合适的视频片段,而缺乏对于“人打篮球”这类语义关系的考虑.因此,它们将难以辨别语义关系上的不同,从而限制了检索质量的提升.为了解决这个问题,本文提出跨模态关系对齐的图卷积框架CrossGraphAlign,通过分别构建文本关系图(textural relationship graph)与视觉关系图(visual relationship graph)来建模查询文本与视频片段中的语义关系,再通过跨模态对齐的图卷积网络来评估文本关系与视觉关系的相似度,从而帮助构建更加精准的视频片段检索系统.在公开的跨模态视频片段检索数据集TACoS和ActivityNet Captions上的实验结果表明,本文提出的方法可以有效地利用语义关系来提升跨模态视频片段检索的召回率.

内容分析

关键词云

关键词热度

相关文献总数

(/次)

(/年)

文献信息

篇名	基于视觉—文本关系对齐的跨模态视频片段检索
来源期刊	中国科学（信息科学）	学科
关键词	关系对齐语言关系视觉关系图卷积网络跨模态视频片段检索
年，卷（期）	2020,（6）	所属期刊栏目	大数据分析专题
研究方向		页码范围	862-876
页数	15页	分类号
字数		语种	中文
DOI

五维指标

作者信息

序号	姓名	单位	发文数	被引次数	H指数	G指数
1	陈恩红	中国科学技术大学大数据分析与应用安徽省重点实验室	87	1942	22.0	42.0
2	杜昊	中国科学技术大学大数据分析与应用安徽省重点实验室	24	169	8.0	11.0
3	陈卓	中国科学技术大学大数据分析与应用安徽省重点实验室	31	216	7.0	14.0
4	吴雨菲	中国科学技术大学大数据分析与应用安徽省重点实验室	1	0	0.0	0.0
5	徐童	中国科学技术大学大数据分析与应用安徽省重点实验室	4	14	1.0	3.0