基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题.针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法.由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题,强制对齐得到的目标值存在不合理性.新的目标值可以表示某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性.同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理.在中文客服问答领域进行实验,在小数据量上验证了目标值对于训练的较大影响,并且选取窗长宽度这一参数.最后将训练数据量提升至60、80以及100 h,结果显示,新的目标值优化方法训练得到的模型在识别性能上获得提升,相对字错误率下降为1.10%~ 3.65%.多组实验验证新的目标值优化方法对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性.
推荐文章
基于深度学习神经网络的孤立词语音识别的研究
语音识别
人工神经网络
深度学习
自编码器
规整网络
简捷法确定提纯回用氢网络目标值
提纯回用
氢网络
目标值
提纯夹点
基于动态优化神经网络的非确定语音识别研究
语音识别
优化神经网络
分形维数
粒子群优化
基于小波混沌神经网络的语音识别
语音识别
小波变换
混沌
神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 语音识别中深度神经网络目标值优化
来源期刊 四川大学学报(工程科学版) 学科 工学
关键词 语音识别 深度神经网络 前后向算法 目标值优化
年,卷(期) 2016,(1) 所属期刊栏目 信息工程
研究方向 页码范围 166-172
页数 7页 分类号 TP391.42
字数 5320字 语种 中文
DOI 10.15961/j.jsuese.2016.01.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 颜永红 中国科学院语言声学与内容理解重点实验室 94 586 14.0 20.0
2 潘接林 中国科学院语言声学与内容理解重点实验室 23 215 7.0 14.0
3 张晴晴 中国科学院语言声学与内容理解重点实验室 14 173 6.0 13.0
4 陈梦喆 中国科学院语言声学与内容理解重点实验室 1 7 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (3)
参考文献  (9)
节点文献
引证文献  (7)
同被引文献  (18)
二级引证文献  (38)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
1987(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(2)
2016(4)
  • 引证文献(2)
  • 二级引证文献(2)
2017(9)
  • 引证文献(2)
  • 二级引证文献(7)
2018(13)
  • 引证文献(1)
  • 二级引证文献(12)
2019(17)
  • 引证文献(1)
  • 二级引证文献(16)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
语音识别
深度神经网络
前后向算法
目标值优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
工程科学与技术
双月刊
1009-3087
51-1773/TB
大16开
成都市一环路南一段24号
62-55
1957
chi
出版文献量(篇)
4421
总下载数(次)
4
总被引数(次)
42422
论文1v1指导