基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功 应用于折扣奖赏MDP的SARSA(λ)类算法相似。为比较这些新算法的性能,本文还给出了一些初步的实验结果。
推荐文章
一类基于有效跟踪的广义平均奖赏激励学习算法
激励学习
Markov
决策过程
平均奖赏
有效跟踪
最小状态变元平均奖赏的强化学习方法
强化学习
平均奖赏
俄罗斯方块
最小状态
基于平均奖赏强化学习算法的零阶分类元系统
平均奖赏
强化学习
R-学习算法
学习分类元系统(LCS)
零阶分类元系统(ZCS)
多步学习问题
激励学习的广义平均算法及其收敛性
激励学习
广义平均
Markov
决策过程
Q-学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 平均奖赏MDP的在策略无模型激励学习算法
来源期刊 计算机工程与科学 学科 工学
关键词 激励学习 Markov决策过程 平均奖赏 折扣奖赏 动态规划
年,卷(期) 2001,(2) 所属期刊栏目 算法研究
研究方向 页码范围 66-69
页数 4页 分类号 TP18
字数 3319字 语种 中文
DOI 10.3969/j.issn.1007-130X.2001.02.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈焕文 长沙电子学院数学与计算机系 1 2 1.0 1.0
2 谢丽娟 长沙电子学院数学与计算机系 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(2)
  • 参考文献(2)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
激励学习
Markov决策过程
平均奖赏
折扣奖赏
动态规划
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
论文1v1指导