基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近十年来,端到端的语音识别框架发展迅速.区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能.因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架.针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提出了一种基于端到端语音识别和帧级别对齐的关键词检索框架,并在越南语数据集上进行了实验验证.首先,使用端到端语音识别模型解码待测语句,得到N-最佳假设;然后,从一个与上述识别模型联合训练的音素分类器中获得逐帧音素概率,使用一个基于动态规划的对齐算法为检出的N-最佳假设和逐帧音素概率进行对齐,进而得到N-最佳假设中各个单词的时间起止点和置信度;最后,在N-最佳假设中匹配关键词,并利用时间起止点和置信度合并重复匹配的关键词,得到最终检索结果.在一个越南语自由交谈数据集上的实验表明,提出的关键词检索系统的F1值可以达到77.6%,相对于传统的基于隐马尔可夫模型的关键词检索系统的F1值提升了7.8%,而且可以提供可靠的关键词置信度.
推荐文章
基于完全化语义的关键词检索研究
关系数据库
关键词检索
检索核
中文时间关键词识别研究
时间关键词
时间关键词识别
谱聚类
基于PAT-tree的中文关键词自动检索模式的研究
PAT-tree
信息检索
语言模型
交互信息
基于TETRA的端到端安全的研究
TETRA
端到端加密
密钥管理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于端到端语音识别的关键词检索技术研究
来源期刊 计算机科学 学科 工学
关键词 检索 语音识别 端到端 帧级别对齐
年,卷(期) 2022,(1) 所属期刊栏目 多语言计算前沿技术|Multilingual Computing Advanced Technology
研究方向 页码范围 53-58
页数 6页 分类号 TP391
字数 语种 中文
DOI 10.11896/jsjkx.210800269
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
检索
语音识别
端到端
帧级别对齐
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导