基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法.该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解.为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法.为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较.实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点.
推荐文章
连续空间的递归最小二乘行动者—评论家算法
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
一种基于高斯过程的行动者评论家算法
强化学习
行动者评论家
高斯过程
贝叶斯推理
连续空间
连续空间的递归最小二乘行动者—评论家算法
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
一种基于高斯过程的行动者评论家算法
强化学习
行动者评论家
高斯过程
贝叶斯推理
连续空间
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 增量式双自然策略梯度的行动者评论家算法
来源期刊 通信学报 学科 工学
关键词 强化学习 自然梯度 行动者评论家 连续空间
年,卷(期) 2017,(4) 所属期刊栏目 学术通信
研究方向 页码范围 166-177
页数 12页 分类号 TP181
字数 11203字 语种 中文
DOI 10.11959/j.issn.1000-436x.2017089
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
10 章鹏 苏州大学计算机科学与技术学院 7 93 3.0 7.0
11 钟珊 苏州大学计算机科学与技术学院 8 185 2.0 8.0
12 钱炜晟 苏州大学计算机科学与技术学院 2 6 2.0 2.0
13 翟建伟 苏州大学计算机科学与技术学院 2 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (7)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
自然梯度
行动者评论家
连续空间
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信学报
月刊
1000-436X
11-2102/TN
大16开
北京市丰台区成寿路11号邮电出版大厦8层
2-676
1980
chi
出版文献量(篇)
6235
总下载数(次)
17
论文1v1指导