基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望.
推荐文章
深度强化学习复原多目标航迹的TOC奖励函数
深度强化学习
序贯决策
Q函数
轨迹密切圆
深度逆向强化学习研究综述
深度学习
强化学习
深度逆向强化学习
基于策略记忆的深度强化学习序列推荐算法研究
推荐系统
强化学习
策略网络
注意力机制
强化学习研究综述
强化学习
多智能体
马尔可夫决策过程
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于值函数和策略梯度的深度强化学习综述
来源期刊 计算机学报 学科 工学
关键词 深度学习 强化学习 深度强化学习 值函数 策略梯度 机器学习
年,卷(期) 2019,(6) 所属期刊栏目 科学与工程论坛
研究方向 页码范围 1406-1438
页数 33页 分类号 TP18
字数 34718字 语种 中文
DOI 10.11897/SP.J.1016.2019.01406
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (73)
共引文献  (141)
参考文献  (19)
节点文献
引证文献  (17)
同被引文献  (28)
二级引证文献  (9)
1956(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(2)
  • 参考文献(1)
  • 二级参考文献(1)
1992(6)
  • 参考文献(3)
  • 二级参考文献(3)
1994(5)
  • 参考文献(0)
  • 二级参考文献(5)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(5)
  • 参考文献(1)
  • 二级参考文献(4)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(7)
  • 参考文献(1)
  • 二级参考文献(6)
2013(6)
  • 参考文献(1)
  • 二级参考文献(5)
2014(7)
  • 参考文献(1)
  • 二级参考文献(6)
2015(10)
  • 参考文献(1)
  • 二级参考文献(9)
2016(9)
  • 参考文献(3)
  • 二级参考文献(6)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(11)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(10)
  • 二级引证文献(1)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(11)
  • 引证文献(10)
  • 二级引证文献(1)
2020(14)
  • 引证文献(6)
  • 二级引证文献(8)
研究主题发展历程
节点文献
深度学习
强化学习
深度强化学习
值函数
策略梯度
机器学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导