基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
推荐文章
融合语音和脉搏的多模态情感识别研究
多模态情感识别
语音
脉搏
梅尔倒谱系数
隐马尔科夫
决策级融合
语音业务多系统融合技术研究与实现
指挥通信
语音业务
融合处理
技术改进
设计
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
多串口转换网关在嵌入式系统中的实现
嵌入式系统
C51F023
MCF5272
转换网关
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 融合句嵌入的VAACGAN多对多语音转换
来源期刊 北京航空航天大学学报 学科
关键词 语音转换 句嵌入 文本编码器 辅助分类器生成对抗网络(ACGAN) 变分自编码器 非平行文本 多对多
年,卷(期) 2021,(3) 所属期刊栏目
研究方向 页码范围 500-508
页数 9页 分类号 TN912.3
字数 语种 中文
DOI 10.13700/j.bh.1001-5965.2020.0475
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (1)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(3)
  • 参考文献(1)
  • 二级参考文献(2)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
语音转换
句嵌入
文本编码器
辅助分类器生成对抗网络(ACGAN)
变分自编码器
非平行文本
多对多
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京航空航天大学学报
月刊
1001-5965
11-2625/V
大16开
北京市海淀区学院路37号
1956
chi
出版文献量(篇)
6912
总下载数(次)
23
总被引数(次)
69992
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导