基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法.该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题.在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快.
推荐文章
优化深度确定性策略梯度算法
强化学习
深度学习
连续动作控制
机器臂
高程梯度性质和算法不确定性的初步分析
高程梯度
高程梯度算法
统计分布
算法稳定性
基于深度确定性策略梯度的智能车汇流模型
智能车
汇流
深度确定性策略梯度
深度Q网络
连续动作空间
采用双梯度钻井优化深水井井身结构
深水钻井
双梯度钻井
井身结构
设计
套管
仿真分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
来源期刊 武汉科技大学学报(自然科学版) 学科 工学
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
年,卷(期) 2020,(2) 所属期刊栏目
研究方向 页码范围 147-154
页数 8页 分类号 TP18|TP301.6
字数 6684字 语种 中文
DOI 10.3969/j.issn.1674-3644.2020.02.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李俊 武汉科技大学计算机科学与技术学院 85 279 8.0 13.0
2 王垚儒 武汉科技大学计算机科学与技术学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (93)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(4)
  • 参考文献(1)
  • 二级参考文献(3)
2016(3)
  • 参考文献(1)
  • 二级参考文献(2)
2017(1)
  • 参考文献(0)
  • 二级参考文献(1)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断双Q学习
双经验回放池
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
武汉科技大学学报(自然科学版)
双月刊
1674-3644
42-1608/N
湖北武汉青山区
chi
出版文献量(篇)
2627
总下载数(次)
1
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导