基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担.
推荐文章
基于替代迹的蜂窝网信道分配Actor-Critic算法
信道分配
蜂窝网络
行动者—评论家
替代迹
连续空间的递归最小二乘行动者—评论家算法
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
基于线性最小方差和递归最小二乘的融合算法
水下目标定位
分布式传感器网络
数据融合算法
节点可信度
两级自适应调整
用于FIR滤波器的递归最小二乘拟牛顿算法
自适应滤波
拟牛顿
FIR滤波
递归最小二乘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于批量递归最小二乘的自然Actor-Critic算法
来源期刊 浙江大学学报(工学版) 学科 工学
关键词 自然梯度 Actor-Critic 批次更新 递归最小二乘
年,卷(期) 2015,(7) 所属期刊栏目 自动化技术、通信工程
研究方向 页码范围 1335-1342
页数 8页 分类号 TP18
字数 7256字 语种 中文
DOI 10.3785/j.issn.1008-973X.2015.07.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李平 浙江大学航空航天学院 260 3720 30.0 50.0
2 方舟 浙江大学航空航天学院 27 157 8.0 11.0
3 王国芳 浙江大学航空航天学院 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (1)
参考文献  (16)
节点文献
引证文献  (8)
同被引文献  (15)
二级引证文献  (8)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(2)
  • 参考文献(1)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(5)
  • 参考文献(2)
  • 二级参考文献(3)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(4)
  • 参考文献(4)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(9)
  • 引证文献(4)
  • 二级引证文献(5)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
自然梯度
Actor-Critic
批次更新
递归最小二乘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
浙江大学学报(工学版)
月刊
1008-973X
33-1245/T
大16开
杭州市浙大路38号
32-40
1956
chi
出版文献量(篇)
6865
总下载数(次)
6
总被引数(次)
81907
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导