基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法.在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数.基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数.将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能.
推荐文章
基于条件的边界平衡生成对抗网络
生成对抗网络
条件特征
边界平衡
图像生成
基于生成对抗网络的恶意域名训练数据生成
恶意域名
DGA
生成对抗网络
检测
分类
基于生成对抗网络的航班起飞风险预测
航班起飞风险预测
数据增强
生成对抗网络
神经网络
基于生成对抗网络的遮挡表情识别
人脸表情识别
局部遮挡
人脸修复
生成对抗网络
卷积神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于生成对抗网络的最大熵逆强化学习
来源期刊 计算机工程与应用 学科 工学
关键词 生成对抗网络(GAN) 逆强化学习 最大熵
年,卷(期) 2019,(22) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 119-126
页数 8页 分类号 TP391
字数 8064字 语种 中文
DOI 10.3778/j.issn.1002-8331.1904-0238
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (114)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(6)
  • 参考文献(1)
  • 二级参考文献(5)
2017(7)
  • 参考文献(1)
  • 二级参考文献(6)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
生成对抗网络(GAN)
逆强化学习
最大熵
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导