基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法.在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数.基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数.将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能.
推荐文章
强化学习与生成式对抗网络结合方法研究进展
强化学习
生成式对抗网络
深度学习
人工智能
基于生成对抗网络的恶意软件对抗样本生成综述
生成对抗网络
机器学习
特征提取
恶意代码检测
对抗样本生成
基于生成对抗网络的恶意网络流生成及验证
生成对抗网络
网络攻击
对抗样本
基于生成对抗网络的无监督域适应分类模型
生成适应模型
迁移学习
领域适应学习
生成对抗网络
多核最大均值差异
无监督学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于生成对抗网络的最大熵逆强化学习
来源期刊 计算机工程与应用 学科 工学
关键词 生成对抗网络(GAN) 逆强化学习 最大熵
年,卷(期) 2019,(22) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 119-126
页数 8页 分类号 TP391
字数 8064字 语种 中文
DOI 10.3778/j.issn.1002-8331.1904-0238
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (114)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(6)
  • 参考文献(1)
  • 二级参考文献(5)
2017(7)
  • 参考文献(1)
  • 二级参考文献(6)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
生成对抗网络(GAN)
逆强化学习
最大熵
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导