基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在无关的发音质量评估系统中,需要先识别出待测语音的说话内容,才能进行准确评估.真实的评测数据往往有很多不利的因素影响识别正确率,包括噪声、方言口音、信道噪声、说话随意性等.针对这些不利因素,本文对声学模型进行了深入的研究,包括:在训练数据中加入背景噪声,增强了模型的抗噪声能力;采用基于说话人的倒谱均值方差规整(SCMVN),降低信道及说话人个体特性的影响;用和待测语音相同地域的朗读数据做最大后验概率(MAP)自适应,使模型带有当地方言口音的发音特点;用自然口语数据做MAP自适应,使模型较好地描述自然口语中比较随意的发音现象.实验结果表明,使用这些措施之后,使待测语音的识别正确率相对提高了44.1%,从而使机器评分和专家评分的相关系数相对提高了6.3%.
推荐文章
基于帧变换的与文本无关语种辨识系统的实现
语种辨识
混合高斯模型
帧似然概率
一种改进的心理声学语音质量客观评价算法
心理声学模型
强度扭曲
扰动聚合
基于PESQ的VOIP系统语音质量评估应用研究
PESQ
VOIP
有效载荷
接口平台
语音质量评估
基于心理声学模型的高性能语音质量评价算法
心理声学模型
美尔倒谱
感知扰动
质量评价
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本无关发音质量评估系统中声学模型的若干研究和改进
来源期刊 网络新媒体技术 学科 工学
关键词 文本无关发音质量评估 声学模型 MAP 基于说话人的倒谱均值方差规整
年,卷(期) 2012,(2) 所属期刊栏目 数字媒体技术
研究方向 页码范围 47-53
页数 分类号 TP391.42
字数 4227字 语种 中文
DOI 10.3969/j.issn.2095-347X.2012.02.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 颜永红 中国科学院语言声学与内容理解重点实验室 94 586 14.0 20.0
2 蒋同海 中国科学院新疆理化技术研究所 26 236 10.0 14.0
3 齐耀辉 中国科学院语言声学与内容理解重点实验室 3 9 3.0 3.0
12 葛凤培 中国科学院语言声学与内容理解重点实验室 8 40 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本无关发音质量评估
声学模型
MAP
基于说话人的倒谱均值方差规整
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络新媒体技术
双月刊
2095-347X
10-1055/TP
大16开
北京海淀区北四环西路21号
2-304
1980
chi
出版文献量(篇)
3082
总下载数(次)
5
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导