作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
探索与利用的权衡是强化学习的挑战之一.探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏.深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性.针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用.序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验.反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作.实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用.
推荐文章
基于序列相关性的超声图像自适应去噪
超声图像
序列相关
速率
直方图
互相关
基于混沌序列的自适应进化规划算法
混沌序列
进化规划
变异算子
基于XML的智能界面自适应策略
智能界面
XML
自适应策略
基于信息增益的自适应主题爬行策略
主题爬行
维基百科
主题描述
自适应方法
信息增益
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于平均序列累计奖赏的自适应ε-greedy策略
来源期刊 计算机工程与应用 学科
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
年,卷(期) 2021,(11) 所属期刊栏目 模式识别与人工智能|Pattern Recognition and Artificial Intelligence
研究方向 页码范围 148-155
页数 8页 分类号 TP181
字数 语种 中文
DOI 10.3778/j.issn.1002-8331.2003-0019
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (3)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(5)
  • 参考文献(1)
  • 二级参考文献(4)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度强化学习
探索与利用
序列累计奖赏
ε-greedy策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导