基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法.
推荐文章
多步截断优先扫描强化学习算法
强化学习
优先扫描
多步截断
Markov过程
基于三次样条滚动优化多步预测算法的网络学习控制
网络学习
三次样条
神经网络
滚动优化
基于行程时间多步预测的实时路径导航算法
智能交通系统
动态路径规划
车辆实时导航
行程时间多步预测
卡尔曼滤波理论
Dijkstra算法
平均报酬模型的多步强化学习算法
强化学习
即时差分学习
马氏决策过程
R学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 多步R学习算法
来源期刊 北京理工大学学报(英文版) 学科 工学
关键词 强化学习 平均报酬 R学习 Markov决策过程 即时差分学习
年,卷(期) 1999,(3) 所属期刊栏目
研究方向 页码范围 245-250
页数 6页 分类号 TP18
字数 1402字 语种 英文
DOI 10.3969/j.issn.1004-0579.1999.03.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴沧浦 北京理工大学自动控制系 23 428 8.0 20.0
2 胡光华 北京理工大学自动控制系 3 22 1.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (8)
二级引证文献  (12)
1996(2)
  • 参考文献(2)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
强化学习
平均报酬
R学习
Markov决策过程
即时差分学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京理工大学学报(英文版)
季刊
1004-0579
11-2916/T
16开
北京海淀中关村南大街5号(白石桥路7号)
1992
eng
出版文献量(篇)
2052
总下载数(次)
1
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导