基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点.然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视.这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺度的处理模式对声音信息进行解析的.基于这些研究,本文提出了一种双通道神经网络模型,其中一条通道处理短时间尺度(即局部)特征,另一条处理长时间尺度(即全局)特征.两种局部特征融合形成可用于说话人识别的声纹特征,称之为t-vector.在RSR2015 Part3文本相关数据集上进行的检测说话人识别系统性能的实验结果表明,不同时间尺度的特征可以互补,并且融合的t-vector特征也优于i-vector和d-vector特征.
推荐文章
基于固有时间尺度分解模型的通信辐射源特征提取算法
通信辐射源
特征提取
时间尺度分解
时频分析
新余市1959-2005年降水多时间尺度特征
气候变化
多时间尺度
降水
Modet小波变换.
基于DFT的多时间尺度系统备用需求分析
系统备用容量
离散傅里叶变换
多时间尺度
在线评估
一种多时间尺度融合的视觉辅助惯性定姿算法
姿态解算
多时间尺度融合
惯性测量单元
数据采集
姿态角校正
角度误差更新
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多时间尺度的深层说话人特征提取研究
来源期刊 网络新媒体技术 学科
关键词 说话人识别 深层说话人特征 不同时间尺度 t-vector
年,卷(期) 2019,(5) 所属期刊栏目 学术研究
研究方向 页码范围 21-26
页数 6页 分类号
字数 4104字 语种 中文
DOI 10.3969/j.issn.2095-347X.2019.05.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黎塔 3 15 2.0 3.0
2 王文超 中国科学院声学研究所语言声学与内容理解重点实验室 4 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (7)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
说话人识别
深层说话人特征
不同时间尺度
t-vector
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络新媒体技术
双月刊
2095-347X
10-1055/TP
大16开
北京海淀区北四环西路21号
2-304
1980
chi
出版文献量(篇)
3082
总下载数(次)
5
论文1v1指导