基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统语音转换方法利用说话人声音特征映射实现,容易造成过平滑(over-smoothing)和过拟合(over-fitting)问题.本文从语音信号内容与形式分离角度,利用隐变量模型提出了一种全新的语音转换方法.首先利用包含两个隐变量因子的隐变量模型(Latent Variable Model,LVM)建立语音信号的生成模型;然后采用最大似然方法把语音信号分解成表示语义的内容信息和体现说话人特征的形式信息,并估计出模型参数;最后基于LVM生成模型,利用说话人形式替换方法实现语音转换.主、客观测试结果表明,在相同训练集条件下,本文提出的语音转换方法性能明显优于GMM方法,并且隐变量模型和传统的双线性模型(Bilinear Model)相比,由于采用非线性关系描述内容与形式之间的相互作用,因此分离效果更好,语音转换质量更高.
推荐文章
基于离散隐马尔科夫模型的语音识别技术
语音识别
隐马尔科夫模型
动态时间规整
人工神经网络
基于隐马尔可夫模型的连续语音同步识别系统
隐马尔可夫模型
连续语音识别
同步识别
信号处理
人机交互
系统结构设计
基于偏最小二乘隐变量空间的控制器设计方法
偏最小二乘
隐变量空间
控制器设计
优化
仿真
基于隐马尔可夫模型和聚类的英语语音识别混合算法
英语语音识别
隐马尔科夫模型
聚类
特征数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于隐变量模型的语音转换方法研究
来源期刊 信号处理 学科 工学
关键词 语音转换 隐变量模型 内容与形式 分离 形式替换
年,卷(期) 2012,(3) 所属期刊栏目 论文与技术报告
研究方向 页码范围 344-351
页数 分类号 TN912.3
字数 6125字 语种 中文
DOI 10.3969/j.issn.1003-0530.2012.03.006
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张雄伟 解放军理工大学指挥自动化学院 150 933 16.0 22.0
2 曹铁勇 解放军理工大学指挥自动化学院 28 149 7.0 11.0
3 杨吉斌 解放军理工大学指挥自动化学院 33 185 8.0 12.0
4 孙新建 解放军理工大学通信工程学院 7 63 4.0 7.0
5 孙健 解放军理工大学通信工程学院 6 50 4.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (9)
节点文献
引证文献  (4)
同被引文献  (6)
二级引证文献  (4)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
语音转换
隐变量模型
内容与形式
分离
形式替换
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信号处理
月刊
1003-0530
11-2406/TN
大16开
北京鼓楼西大街41号
18-143
1985
chi
出版文献量(篇)
5053
总下载数(次)
13
总被引数(次)
32728
论文1v1指导