基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法———SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于11-酌、1着.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
推荐文章
一种改进的基于二阶统计量的盲源抽取算法
盲源抽取
二阶统计量
鞍点
自回归估计
一种二阶曲率补偿的带隙电压基准
带隙电压基准
二阶曲率补偿
温度系数
温度特性
一种分数阶傅里叶变换快速算法的研究
分数阶傅里叶变换
FFT
时频分析
卷积
一种新颖的电压模式通用二阶CFA滤波器设计
电压模式
电流反馈放大器(CFA)
滤波器
PSpice
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种二阶TD Error快速Q(λ)算法
来源期刊 模式识别与人工智能 学科 工学
关键词 强化学习 马尔科夫决策过程 二阶TD Error 资格迹 Q(λ)算法
年,卷(期) 2013,(3) 所属期刊栏目
研究方向 页码范围 282-292
页数 分类号 TP181
字数 12214字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
2 李瑾 苏州大学计算机科学与技术学院 27 176 6.0 13.0
3 王辉 苏州大学计算机科学与技术学院 86 466 11.0 18.0
4 傅启明 苏州大学计算机科学与技术学院 23 360 10.0 18.0
5 孙洪坤 苏州大学计算机科学与技术学院 6 42 4.0 6.0
6 高龙 苏州大学计算机科学与技术学院 4 28 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (12)
参考文献  (6)
节点文献
引证文献  (11)
同被引文献  (19)
二级引证文献  (6)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(7)
  • 引证文献(3)
  • 二级引证文献(4)
研究主题发展历程
节点文献
强化学习
马尔科夫决策过程
二阶TD Error
资格迹
Q(λ)算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导