基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.
推荐文章
优化深度确定性策略梯度算法
强化学习
深度学习
连续动作控制
机器臂
基于深度确定性策略梯度的智能车汇流模型
智能车
汇流
深度确定性策略梯度
深度Q网络
连续动作空间
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
基于确定性抽样的过冷沸腾边界条件不确定性分析
过冷沸腾
CFD
不确定性分析
确定性抽样方法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于情节经验回放的深度确定性策略梯度方法
来源期刊 计算机科学 学科
关键词 深度确定性策略梯度 连续控制任务 经验回放 累积回报 分类经验回放
年,卷(期) 2021,(10) 所属期刊栏目 人工智能|Artificial Intelligence
研究方向 页码范围 37-43
页数 7页 分类号 TP181
字数 语种 中文
DOI 10.11896/jsjkx.200900208
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (3)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1930(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(5)
  • 参考文献(3)
  • 二级参考文献(2)
2016(5)
  • 参考文献(1)
  • 二级参考文献(4)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度确定性策略梯度
连续控制任务
经验回放
累积回报
分类经验回放
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导