基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作.然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型.研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质.通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量.
推荐文章
藏语拉萨话大词表连续语音识别声学模型研究
藏语
拉萨话
连续语音识别
隐马尔可夫模型
HTK工具
声学模型
基于LPC的藏语语音基音周期的检测分析
LPC
藏语语音
基音周期
倒谱法
藏语口语语音语料库的设计与研究
语音语料库
口语语音
语音识别
标注规范
藏语拉萨话
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 临近最优主动学习的藏语语音识别方法研究
来源期刊 计算机工程与应用 学科 工学
关键词 临近最优批量主动学习 submodular函数 语音语料选择 藏语拉萨话语音识别
年,卷(期) 2018,(22) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 156-159,215
页数 5页 分类号 TP391.43
字数 3776字 语种 中文
DOI 10.3778/j.issn.1002-8331.1708-0052
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵悦 中央民族大学信息工程学院 12 64 5.0 7.0
2 徐晓娜 中央民族大学信息工程学院 6 27 3.0 5.0
3 吴立成 中央民族大学信息工程学院 11 60 4.0 7.0
4 李要嫱 中央民族大学信息工程学院 2 8 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (12)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (32)
二级引证文献  (0)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
临近最优批量主动学习
submodular函数
语音语料选择
藏语拉萨话语音识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导