基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于最大似然估计(Maximum likelihood estimation, MLE) 的语言模型(Language model, LM) 数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布.语言模型的数据增强问题实质上是离散序列的生成问题.当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型.为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化,此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛搜索算法对生成序列的中间状态进行评价.语音识别多候选重估实验表明,在有限文本数据条件下,随着训练数据量的增加,本文提出的方法可以进一步降低识别字错误率(Character error rate, CER),且始终优于基于MLE的数据增强方法.当训练数据达到6 M词规模时,本文提出的方法使THCHS 30数据集的CER相对基线系统下降5.0 %,AISHELL数据集的CER相对下降7.1 %.
推荐文章
基于邻域差分滤波生成式对抗网络的数据增强方法
生成式对抗网络
邻域差分
特征提取
数据增强
基于生成对抗网络的恶意域名训练数据生成
恶意域名
DGA
生成对抗网络
检测
分类
基于CORBA的通信对抗训练仿真系统分析与设计
CORBA
通信对抗训练
事件服务
OMG
基于XML语言和代理模型的翼型通用气动数据库技术
翼型
气动数据库
代理模型
数据库技术
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于对抗训练策略的语言模型数据增强技术
来源期刊 自动化学报 学科
关键词 数据增强 语言模型 生成对抗网络 强化学习 语音识别
年,卷(期) 2018,(5) 所属期刊栏目 论文与报告
研究方向 页码范围 891-900
页数 10页 分类号
字数 8773字 语种 中文
DOI 10.16383/j.aas.2018.c170464
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 颜永红 中国科学院声学研究所语言声学与内容理解重点实验室 94 586 14.0 20.0
10 张鹏远 中国科学院声学研究所语言声学与内容理解重点实验室 18 77 6.0 8.0
14 张一珂 中国科学院声学研究所语言声学与内容理解重点实验室 2 11 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (108)
参考文献  (7)
节点文献
引证文献  (4)
同被引文献  (20)
二级引证文献  (0)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(6)
  • 参考文献(2)
  • 二级参考文献(4)
2017(5)
  • 参考文献(1)
  • 二级参考文献(4)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据增强
语言模型
生成对抗网络
强化学习
语音识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
自动化学报
月刊
0254-4156
11-2109/TP
大16开
北京市海淀区中关村东路95号(北京2728信箱)
2-180
1963
chi
出版文献量(篇)
4124
总下载数(次)
26
总被引数(次)
120705
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导