原文服务方: 计算机应用研究       
摘要:
深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降.为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态-动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态一动作值,从而使得最优状态-动作值与非最优状态-动作值的差异增大,减少过估计问题的影响.实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能.说明改进的算法比深度Q网络寻得了更优的策略.
推荐文章
一种改进的基于SNMP的网络拓扑发现算法
SNMP
拓扑发现算法
三层交换机
MIB
OID
一种基于路由的改进蚂蚁网络算法
遗传算法
蚂蚁网络算法
路由
基于深度Q网络的水面无人艇路径规划算法
水面无人艇(USV)
自主避障
路径规划
深度Q网络
卷积神经网络
强化学习
一种基于深度神经网络的基音检测算法
基音检测
深度神经网络
监督学习
维特比算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种深度Q网络的改进算法
来源期刊 计算机应用研究 学科
关键词 深度Q网络 过估计问题 更正函数 状态-动作值
年,卷(期) 2019,(12) 所属期刊栏目 算法研究探讨
研究方向 页码范围 3661-3665
页数 5页 分类号 TP181
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.07.0417
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦进 贵州大学计算机科学与技术学院 22 288 5.0 16.0
2 夏宗涛 贵州大学计算机科学与技术学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (40)
共引文献  (32)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(9)
  • 参考文献(0)
  • 二级参考文献(9)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(5)
  • 参考文献(0)
  • 二级参考文献(5)
2015(4)
  • 参考文献(0)
  • 二级参考文献(4)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度Q网络
过估计问题
更正函数
状态-动作值
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导