原文服务方: 计算机应用研究       
摘要:
自动生成视频的自然语言描述是一个非常具有挑战性的研究热点.基于深度BLSTM模型和CNN特征的方法,能够学习到视频序列的全局时空关联信息.针对视频转文字时面临的准确率低以及计算复杂度高的问题,提出了深度BMGU模型,从而在保持深度BLSTM模型结构优势的同时提高计算效率;还将原始视频帧的CNN特征与经过Haar特征预处理后的视频的CNN特征进行后期融合,从而增加了训练特征的多样性,进而提升了视频转自然语言的实验效果.在M-VAD和MPII-MD数据集中,相对原S2VT模型,所提方法分别将METEOR分数从6.7和7.1提高到8.0和8.3.结果表明所提方法有效地改善了原S2VT模型的准确率和语言描述效果.
推荐文章
基于笔画提取和颜色模型的视频文字分割算法
视频文字识别
视频文字分割
笔画提取
颜色建模
基于时空域深度特征两级编码融合的视频分类
视频分类
两级编码
深度学习
特征融合
基于信息融合的二维视频深度提取方法
深度提取
信息融合
信息熵
Neyman Pearson准则
基于深度学习和手工设计特征融合的翻唱歌曲识别模型
特征融合
深度学习
翻唱歌曲识别
SVM
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于深度双向模型和特征融合的视频转文字研究
来源期刊 计算机应用研究 学科
关键词 视频转文字 深度双向模型 哈尔特征 特征融合 卷积神经网络
年,卷(期) 2020,(1) 所属期刊栏目 图形图像技术
研究方向 页码范围 317-320
页数 4页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.03.0488
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张荣锋 华南理工大学电子与信息学院 3 7 1.0 2.0
2 宁培阳 华南理工大学电子与信息学院 3 2 1.0 1.0
3 史景伦 华南理工大学电子与信息学院 9 65 3.0 8.0
4 邱威 华南理工大学电子与信息学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (24)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(1)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
视频转文字
深度双向模型
哈尔特征
特征融合
卷积神经网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导