原文服务方: 计算机应用研究       
摘要:
为了解决语音识别中基于卷积位置信息的混合式注意力机制无法提取长期有效位置信息的问题,提出了一种捕捉长期有效位置信息的新型混合式注意力机制.首先,对当前时刻生成的注意力得分作卷积来提取多通道特征图,并通过全局平均池化来得到恒定维度的特征向量;接着,引入长短期记忆网络(long short-term memo-ry,LSTM)单元作为外部记忆模块,并以生成的特征向量作为输入,生成下一时刻的位置信息向量;最后,结合经典的LAS(listen,attend and spell)模型来验证提出方案的有效性.实验结果表明,该方案能充分考虑过去多个时刻的注意力得分.相对于基于卷积位置信息的LAS模型,该方案在纯净和含噪语音数据集上取得的标签错误率分别减少了1.8%和2.21%.
推荐文章
一种基于注意力机制的语音情感识别算法研究
语音情感识别
深度学习
注意力机制
语谱图
基于多尺度融合注意力机制的人脸表情识别研究
计算机视觉
深度学习
人脸表情识别
特征提取
多尺度特征融合
注意力机制
基于混合注意力机制的软件缺陷预测方法
软件缺陷预测
语法语义信息
静态度量元
多头注意力机制
全局注意力机制
融合注意力机制和区域生长的裂缝识别算法研究
数字图像
裂缝识别
区域生长
注意力机制
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于混合式注意力机制的语音识别研究
来源期刊 计算机应用研究 学科
关键词 卷积 注意力机制 全局平均池化 长短期记忆网络 LAS模型
年,卷(期) 2020,(1) 所属期刊栏目 算法研究探讨
研究方向 页码范围 131-134
页数 4页 分类号 TP391.4
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.06.0492
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 唐振民 南京理工大学计算机科学与工程学院 191 2436 26.0 40.0
2 张二华 南京理工大学计算机科学与工程学院 34 219 8.0 13.0
3 李业良 南京理工大学计算机科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1993(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
卷积
注意力机制
全局平均池化
长短期记忆网络
LAS模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导