基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在传统电力调度通信系统中,通话双方的语音内容被存储在单个录音文件中.如何将通话双方的人声区分开来,对于语音识别和声纹识别在电力调度领域应用具有重要的作用.当有多人同时说话时,如何将这些人声区分开来的问题,被称为鸡尾酒会问题.为解决鸡尾酒会问题,特别是单通道双人语音分离问题,提出了基于注意力机制的深度聚类网络.首先提取语音信号的MFCC特征,其次将其输入到神经网络提取更高维度的特征,再次采用注意力机制为每一特征分配权重,最后采用k-means聚类将同一说话人的语音聚类输出.在wsj0数据集上,所提算法模型相比于原始的聚类网络取得了更好的效果.测试结果表明:在封闭的数据集上,新算法的SDR增长在男性和男性混合语音、女性和女性混合语音、男性和女性混合语音及总体情况分别为20.58%、17.25%、1.88%、22.78%,而在开放数据集上的对应结果分别为3.56%、20.87%、1.04%、17.67%.
推荐文章
基于模型的单通道语音分离综述
单通道语音分离
基于模型
说话人依赖
说话人选择
说话人独立
基于混合式注意力机制的语音识别研究
卷积
注意力机制
全局平均池化
长短期记忆网络
LAS模型
一种基于注意力机制的语音情感识别算法研究
语音情感识别
深度学习
注意力机制
语谱图
基于模型的单通道语音分离综述
单通道语音分离
基于模型
说话人依赖
说话人选择
说话人独立
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于注意力机制的单通道双人语音分离研究
来源期刊 通信技术 学科 工学
关键词 鸡尾酒会问题 注意力机制 深度聚类 k-means
年,卷(期) 2020,(4) 所属期刊栏目 信息处理与传输
研究方向 页码范围 880-884
页数 5页 分类号 TN912.3
字数 2853字 语种 中文
DOI 10.3969/j.issn.1002-0802.2020.04.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周晓东 11 5 2.0 2.0
2 陈人楷 5 1 1.0 1.0
3 孙华星 3 0 0.0 0.0
4 莫钞然 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
鸡尾酒会问题
注意力机制
深度聚类
k-means
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信技术
月刊
1002-0802
51-1167/TN
大16开
四川省成都高新区永丰立交桥(南)创业路8号
62-153
1967
chi
出版文献量(篇)
10805
总下载数(次)
35
论文1v1指导