基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor-Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.
推荐文章
连续空间的递归最小二乘行动者—评论家算法
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
一种基于高斯过程的行动者评论家算法
强化学习
行动者评论家
高斯过程
贝叶斯推理
连续空间
连续空间的递归最小二乘行动者—评论家算法
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
增量式双自然策略梯度的行动者评论家算法
强化学习
自然梯度
行动者评论家
连续空间
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 连续空间中的一种动作加权行动者评论家算法
来源期刊 计算机学报 学科 工学
关键词 强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能
年,卷(期) 2017,(6) 所属期刊栏目 人工智能
研究方向 页码范围 1252-1264
页数 13页 分类号 TP18
字数 13360字 语种 中文
DOI 10.11897/SP.J.1016.2017.01252
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
10 章鹏 苏州大学计算机科学与技术学院 7 93 3.0 7.0
11 钟珊 苏州大学计算机科学与技术学院 8 185 2.0 8.0
12 钱炜晟 苏州大学计算机科学与技术学院 2 6 2.0 2.0
13 翟建伟 苏州大学计算机科学与技术学院 2 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (6)
二级引证文献  (4)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(5)
  • 引证文献(1)
  • 二级引证文献(4)
研究主题发展历程
节点文献
强化学习
连续空间
函数逼近
行动者评论家
梯度下降
人工智能
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
江苏省自然科学基金
英文译名:Natural Science Foundation of Jiangsu Province
官方网址:http://www.jsnsf.gov.cn/News.aspx?a=37
项目类型:
学科类型:
论文1v1指导