基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
视频问答是视觉理解领域中非常重要且具有挑战性的任务.目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频.此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案.文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络.具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征包含了多个帧级别特征,用于对视频时间动态建模,再以共享注意力的形式建模全局与局部视觉特征的相关性,然后结合文本问题来推断答案.在天池视频问答数据集上进行了大量的实验,验证了所提方法的有效性.
推荐文章
具有全局特征的空间注意力机制
卷积神经网络
空间注意力机制
全局特征
特征融合
目标分类
目标检测
基于视觉注意力变化的视频质量评估模型
视频感知质量
编码参数
视频内容
突发事件
基于深层注意力的LSTM的特定主题情感分析
特定主题情感分析
深层注意力
LSTM
深度学习
自然语言处理
基于注意力机制的全景分割网络
全景分割
背景类实例重叠
三重态注意力机制
语义增强注意力机制
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 利用全局与局部帧级特征进行基于共享注意力的视频问答
来源期刊 计算机科学 学科
关键词 视频问答 共享注意力机制 全局和局部帧级特征
年,卷(期) 2021,(8) 所属期刊栏目 计算机图形学&多媒体|Computer Graphics & Multimedia
研究方向 页码范围 145-149
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.11896/jsjkx.200800207
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(3)
  • 参考文献(1)
  • 二级参考文献(2)
2019(1)
  • 参考文献(0)
  • 二级参考文献(1)
2020(1)
  • 参考文献(0)
  • 二级参考文献(1)
2021(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
视频问答
共享注意力机制
全局和局部帧级特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
论文1v1指导