基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R).该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样.此外,将E3 R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验.实验结果表明,相比传统随机采样和时序差分优先采样,E3 R可以获得更快的收敛速度和更高的累计回报.
推荐文章
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
一种利用磁流体液流变效应的在线动平衡方法
转子
在线动平衡
磁流体
电磁铁
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种平衡探索和利用的优先经验回放方法
来源期刊 计算机科学 学科 工学
关键词 强化学习 经验回放 优先采样 利用 探索 软演员-评论家算法
年,卷(期) 2022,(5) 所属期刊栏目 人工智能|Artificial Intelligence
研究方向 页码范围 179-185
页数 7页 分类号 TP181
字数 语种 中文
DOI 10.11896/jsjkx.210300084
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
经验回放
优先采样
利用
探索
软演员-评论家算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导