原文服务方: 计算机应用研究       
摘要:
深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降.为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态-动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态一动作值,从而使得最优状态-动作值与非最优状态-动作值的差异增大,减少过估计问题的影响.实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能.说明改进的算法比深度Q网络寻得了更优的策略.
推荐文章
基于期望值函数的离策略深度Q神经网络算法
深度Q神经网络
期望值函数
离策略
策略表现
基于优势学习的深度Q网络
强化学习
优势学习
深度Q网络
过估计问题
基于改进深度置信网络的语音增强算法
语音增强算法
深度置信网络
LOG-MMSE算法
改进Q-Learning算法在路径规划中的应用
路径规划
改进Q-Learning算法
强化学习
栅格法
机器人
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种深度Q网络的改进算法
来源期刊 计算机应用研究 学科
关键词 深度Q网络 过估计问题 更正函数 状态-动作值
年,卷(期) 2019,(12) 所属期刊栏目 算法研究探讨
研究方向 页码范围 3661-3665
页数 5页 分类号 TP181
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.07.0417
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦进 贵州大学计算机科学与技术学院 22 288 5.0 16.0
2 夏宗涛 贵州大学计算机科学与技术学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (40)
共引文献  (32)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(9)
  • 参考文献(0)
  • 二级参考文献(9)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(5)
  • 参考文献(0)
  • 二级参考文献(5)
2015(4)
  • 参考文献(0)
  • 二级参考文献(4)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度Q网络
过估计问题
更正函数
状态-动作值
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导