基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
结合深度神经网络和强化学习方法的深度Q网络在Atari 2600游戏平台上取得了巨大成功.相较于深度Q网络,深度循环Q网络具有记忆历史信息的能力,在部分游戏上显示出了更好的性能.然而在某些复杂的游戏环境中,一方面深度循环Q网络需要大量的训练时间,另一方面其在动作空间抖动的策略中不能做出合理决策.针对这些问题,本文提出一种带探索噪音的深度循环Q网络(Deep Recurrent Q-Networks with Exploratory Noise,EN-DRQN)模型.与在动作空间的探索方式不同,EN-DRQN在网络空间注入噪音,引起网络输出变化,然后根据该变化选择动作.这种在网络空间的探索可以在未来多个时间步内造成复杂的改变,并通过循环神经网络记忆多步变化,使智能体(Agent)做出的决策更具有战略性.EN-DRQN具有以下特点:一是利用带探索性的噪音进行深度探索以弥补传统策略探索的低效性.噪音来自于噪音分布,通过方差驱动探索,这使得Agent可以发现大量新状态,提供更加丰富的样本,为决策提供有效信息;二是使用改进的双层门限循环单元来记忆较长时间步的历史信息,使Agent能够在延迟奖赏的情况下做出合理的决策.实验结果表明,EN-DRQN模型在Atari 2600游戏平台上的部分战略性游戏以及具有延迟奖赏的游戏上,与动作空间的抖动策略相比,取得了更优的表现.
推荐文章
一种深度Q网络的改进算法
深度Q网络
过估计问题
更正函数
状态-动作值
基于优势学习的深度Q网络
强化学习
优势学习
深度Q网络
过估计问题
一种深度Q网络的改进算法
深度Q网络
过估计问题
更正函数
状态-动作值
解决深度探索问题的贝叶斯深度强化学习算法
深度强化学习
探索与利用
贝叶斯定理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种带探索噪音的深度循环Q网络
来源期刊 计算机学报 学科 工学
关键词 深度学习 强化学习 循环神经网络 卷积神经网络 噪音探索
年,卷(期) 2019,(7) 所属期刊栏目
研究方向 页码范围 1588-1604
页数 17页 分类号 TP18
字数 14319字 语种 中文
DOI 10.11897/SP.J.1016.2019.01588
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (52)
共引文献  (251)
参考文献  (10)
节点文献
引证文献  (3)
同被引文献  (22)
二级引证文献  (0)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(4)
  • 参考文献(0)
  • 二级参考文献(4)
1994(4)
  • 参考文献(2)
  • 二级参考文献(2)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(6)
  • 参考文献(2)
  • 二级参考文献(4)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(7)
  • 参考文献(1)
  • 二级参考文献(6)
2015(6)
  • 参考文献(1)
  • 二级参考文献(5)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度学习
强化学习
循环神经网络
卷积神经网络
噪音探索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导