基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型.在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列.语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本.实验表明,此算法在测试集上已经获得了80.82%的正确率.
推荐文章
基于改进混合CTC/attention架构的端到端普通话语音识别
语音识别
链接时序分类
注意力机制
混合CTC/attention
端到端系统
普通话双模态情感语音数据库的设计与评价
数据库
情感语音
发音动作参数
汉语普通话
信号处理
普通话语音库
改进卷积输入的端到端普通话语音识别
序列级
低资源
端到端
卷积神经网络
批量归一化
从普通话水平测试视角分析普通话朗读教学
普通话朗读教学
表达技巧
语感
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于CNN/CTC的端到端普通话语音识别方法
来源期刊 现代信息科技 学科 工学
关键词 卷积神经网络 中文语音识别 连接时序分类 端到端系统
年,卷(期) 2020,(5) 所属期刊栏目 计算机技术
研究方向 页码范围 65-68
页数 4页 分类号 TN912.34|TP399
字数 2692字 语种 中文
DOI 10.19850/j.cnki.2096-4706.2020.05.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 潘粤成 华南理工大学自动化科学与工程学院 1 0 0.0 0.0
2 刘卓 华南理工大学自动化科学与工程学院 1 0 0.0 0.0
3 潘文豪 华南理工大学自动化科学与工程学院 1 0 0.0 0.0
4 蔡典仑 华南理工大学机械与汽车工程学院 1 0 0.0 0.0
5 韦政松 华南理工大学自动化科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (12)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(4)
  • 参考文献(1)
  • 二级参考文献(3)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(3)
  • 参考文献(0)
  • 二级参考文献(3)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
卷积神经网络
中文语音识别
连接时序分类
端到端系统
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代信息科技
半月刊
2096-4706
44-1736/TN
16开
广东省广州市白云区机场路1718号8A09
46-250
2017
chi
出版文献量(篇)
4784
总下载数(次)
45
总被引数(次)
3182
论文1v1指导