基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题.为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数.当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值.和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略.
推荐文章
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
基于深度Q网络的水面无人艇路径规划算法
水面无人艇(USV)
自主避障
路径规划
深度Q网络
卷积神经网络
强化学习
一种深度Q网络的改进算法
深度Q网络
过估计问题
更正函数
状态-动作值
基于光网络的深度学习算法研究
计算机视觉
图像理解
卷积神经网络
多层感知器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于优势学习的深度Q网络
来源期刊 计算机工程与应用 学科 工学
关键词 强化学习 优势学习 深度Q网络 过估计问题
年,卷(期) 2019,(20) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 101-106
页数 6页 分类号 TP181
字数 5466字 语种 中文
DOI 10.3778/j.issn.1002-8331.1806-0394
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦进 贵州大学计算机科学与技术学院 22 288 5.0 16.0
2 夏宗涛 贵州大学计算机科学与技术学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (23)
参考文献  (4)
节点文献
引证文献  (1)
同被引文献  (6)
二级引证文献  (0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
优势学习
深度Q网络
过估计问题
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导