基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性.
推荐文章
求解连续空间优化问题的改进蜂群算法
人工蜂群算法
连续空间优化
反向学习
分布估计算法
一种基于梯度信息的多目标优化算法
多目标
优化算法
梯度信息
选择置点法
补料分批生化反应器
动态优化
一种求解连续对象优化问题的改进蚁群算法
蚁群算法
TSP问题
连续对象优化问题
一种基于Boosting的在线回归算法
在线回归
集成算法
概念漂移
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种解决连续空间问题的真实在线自然梯度AC算法
来源期刊 软件学报 学科 工学
关键词 策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法
年,卷(期) 2018,(2) 所属期刊栏目 算法设计与分析
研究方向 页码范围 267-282
页数 16页 分类号 TP301
字数 11446字 语种 中文
DOI 10.13328/j.cnki.jos.005251
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈冬火 苏州大学计算机科学与技术学院 14 58 5.0 6.0
2 朱海军 苏州大学计算机科学与技术学院 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (8)
共引文献  (7)
参考文献  (16)
节点文献
引证文献  (3)
同被引文献  (16)
二级引证文献  (2)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(3)
  • 参考文献(3)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(4)
  • 参考文献(2)
  • 二级参考文献(2)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
策略梯度
自然梯度
行动者-评论家
真实在线TD
核方法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导