基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
唇动视觉信息是说话内容的重要载体.受嘴唇外观、背景信息和说话习惯等影响,即使说话者说相同的内容,唇动视觉信息也会相差很大.为解决唇语视觉信息多样性的问题,提出一种基于long short-term memory(LSTM)的新的唇语识别方法.以往大多数的方法从嘴唇外表信息入手.本方法用嘴唇关键点坐标描述嘴唇形变信息作为唇语视频的特征,它具有类内一致性和类间区分性的特点.然后利用LSTM对特征进行时序编码,它能学习具有区分性和泛化性的空间-时序特征.在公开的唇语数据集GRID、MIRACL-VC和OuluVS上对本方法做了针对分割的单词或短语的说话者独立的唇语识别评估.在GRID和MIRACL-VC上,本方法的准确率比传统方法至少高30%;在OuluVS上,本方法的准确率接近于最优结果.以上实验结果表明,本文提出的基于LSTM的唇语识别方法有效地解决了唇语视觉信息多样性的问题.
推荐文章
一种单手动态手指语的识别方法
特征匹配
D-S证据理论
手语识别
一种基于在线学习的弹道识别方法
弹道识别
支持向量机(SVM)
在线优化
Pegasos
基于BiLSTM-Attention唇语识别的研究
唇语识别
双向长短时记忆网络
注意力机制
深度学习
时序编码
基于OpenCV的一种手势识别方法
OpenCV
手势识别
模式识别
图像处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于long short-term memory的唇语识别方法
来源期刊 中国科学院大学学报 学科 工学
关键词 唇语识别 long short-term memory 计算机视觉
年,卷(期) 2018,(1) 所属期刊栏目 信息与电子科学
研究方向 页码范围 109-117
页数 9页 分类号 TP391
字数 语种 中文
DOI 10.7523/j.issn.2095-6134.2018.01.015
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马宁 50 474 8.0 21.0
5 田国栋 中国科学院重庆绿色智能技术研究院 2 17 1.0 2.0
6 周曦 中国科学院重庆绿色智能技术研究院 12 95 6.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1976(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
唇语识别
long short-term memory
计算机视觉
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国科学院大学学报
双月刊
2095-6134
10-1131/N
大16开
北京玉泉路19号(甲)
82-583
1984
chi
出版文献量(篇)
2247
总下载数(次)
2
总被引数(次)
15229
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导