基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法.方法针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断TD(λ)的Q学习算法,并在计算机上实现了该算法.结果与结论在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断TD(λ)的Q学习能够加速算法收敛.
推荐文章
基于即时学习的非线性系统自适应PID控制
广义最小方差
即时学习
κ矢量近邻
PID控制器
基于即时学习的高炉炼铁过程数据驱动自适应预测控制
高炉
数据驱动
即时学习
线性化
模型预测控制
工业数据异常
基于最小均方的自适应滤波时差估计研究
时差估计
最小均方变步长自适应
梯度下降
sinc内插
一种适于时差法超声流量计的自适应采样方法
自适应采样
周期采样
超声波流量计
快速跟踪
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 有效的自适应λ即时差异学习
来源期刊 北京理工大学学报(英文版) 学科 工学
关键词 动态规划 延迟强化学习 吸收马尔可夫过程 即时差异学习 Q学习
年,卷(期) 1999,(3) 所属期刊栏目
研究方向 页码范围 251-257
页数 7页 分类号 TP18
字数 2210字 语种 英文
DOI 10.3969/j.issn.1004-0579.1999.03.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴沧浦 北京理工大学自动控制系 23 428 8.0 20.0
2 毕金波 北京理工大学自动控制系 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
动态规划
延迟强化学习
吸收马尔可夫过程
即时差异学习
Q学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京理工大学学报(英文版)
季刊
1004-0579
11-2916/T
16开
北京海淀中关村南大街5号(白石桥路7号)
1992
eng
出版文献量(篇)
2052
总下载数(次)
1
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导