基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification,CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection,BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.
推荐文章
一种基于CNN/CTC的端到端普通话语音识别方法
卷积神经网络
中文语音识别
连接时序分类
端到端系统
改进卷积输入的端到端普通话语音识别
序列级
低资源
端到端
卷积神经网络
批量归一化
普通话双模态情感语音数据库的设计与评价
数据库
情感语音
发音动作参数
汉语普通话
信号处理
普通话语音库
从普通话水平测试视角分析普通话朗读教学
普通话朗读教学
表达技巧
语感
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进混合CTC/attention架构的端到端普通话语音识别
来源期刊 西北师范大学学报(自然科学版) 学科 工学
关键词 语音识别 链接时序分类 注意力机制 混合CTC/attention 端到端系统
年,卷(期) 2019,(3) 所属期刊栏目 计算机与信息科学
研究方向 页码范围 48-53
页数 6页 分类号 TN912.34|TP181
字数 5139字 语种 中文
DOI 10.16783/j.cnki.nwnuz.2019.03.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨鸿武 西北师范大学物理与电子工程学院 55 308 11.0 14.0
2 周刚 西北师范大学物理与电子工程学院 2 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (20)
参考文献  (10)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (0)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(1)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(4)
  • 参考文献(3)
  • 二级参考文献(1)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(4)
  • 参考文献(2)
  • 二级参考文献(2)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
语音识别
链接时序分类
注意力机制
混合CTC/attention
端到端系统
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西北师范大学学报(自然科学版)
双月刊
1001-988X
62-1087/N
大16开
甘肃兰州安宁东路967号
54-53
1942
chi
出版文献量(篇)
3180
总下载数(次)
2
总被引数(次)
17931
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导