基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法.该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池.在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能.此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系.将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率.
推荐文章
优化深度确定性策略梯度算法
强化学习
深度学习
连续动作控制
机器臂
基于业务感知的增强型小区间干扰协调算法
密集网络
业务感知
干扰协调
边缘频谱效率
可重入生产系统的递阶增强型学习调度
马尔可夫决策过程
递阶
增强型学习
调度
分裂增强型Hammerstein模型的研究
功率放大器
行为模型
记忆效应
失真路径
线性化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 增强型深度确定策略梯度算法
来源期刊 通信学报 学科 工学
关键词 深度强化学习 样本排序 自模拟度量 时间差分误差
年,卷(期) 2018,(11) 所属期刊栏目 学术论文
研究方向 页码范围 106-115
页数 10页 分类号 TP391
字数 9836字 语种 中文
DOI 10.11959/j.issn.1000-436x.2018238
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (316)
参考文献  (9)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度强化学习
样本排序
自模拟度量
时间差分误差
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信学报
月刊
1000-436X
11-2102/TN
大16开
北京市丰台区成寿路11号邮电出版大厦8层
2-676
1980
chi
出版文献量(篇)
6235
总下载数(次)
17
论文1v1指导