基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
推荐文章
最小状态变元平均奖赏的强化学习方法
强化学习
平均奖赏
俄罗斯方块
最小状态
基于平均奖赏强化学习算法的零阶分类元系统
平均奖赏
强化学习
R-学习算法
学习分类元系统(LCS)
零阶分类元系统(ZCS)
多步学习问题
一类基于有效跟踪的广义平均奖赏激励学习算法
激励学习
Markov
决策过程
平均奖赏
有效跟踪
平均奖赏MDP的在策略无模型激励学习算法
激励学习
Markov决策过程
平均奖赏
折扣奖赏
动态规划
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 平均奖赏强化学习算法研究
来源期刊 计算机学报 学科 工学
关键词 平均奖赏强化学习 性能势 G-学习 马尔可夫决策过程 半马尔可夫决策过程
年,卷(期) 2007,(8) 所属期刊栏目 学习算法
研究方向 页码范围 1372-1378
页数 7页 分类号 TP181
字数 6416字 语种 中文
DOI 10.3321/j.issn:0254-4164.2007.08.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 高阳 南京大学软件新技术国家重点实验室 77 1645 20.0 39.0
2 王皓 南京大学软件新技术国家重点实验室 21 164 6.0 12.0
3 周如益 南京大学软件新技术国家重点实验室 3 62 2.0 3.0
4 曹志新 1 58 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (8)
节点文献
引证文献  (58)
同被引文献  (63)
二级引证文献  (274)
1998(2)
  • 参考文献(2)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(3)
  • 引证文献(3)
  • 二级引证文献(0)
2009(3)
  • 引证文献(2)
  • 二级引证文献(1)
2010(3)
  • 引证文献(1)
  • 二级引证文献(2)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(15)
  • 引证文献(4)
  • 二级引证文献(11)
2013(15)
  • 引证文献(4)
  • 二级引证文献(11)
2014(25)
  • 引证文献(10)
  • 二级引证文献(15)
2015(7)
  • 引证文献(1)
  • 二级引证文献(6)
2016(5)
  • 引证文献(0)
  • 二级引证文献(5)
2017(6)
  • 引证文献(3)
  • 二级引证文献(3)
2018(52)
  • 引证文献(8)
  • 二级引证文献(44)
2019(141)
  • 引证文献(16)
  • 二级引证文献(125)
2020(55)
  • 引证文献(4)
  • 二级引证文献(51)
研究主题发展历程
节点文献
平均奖赏强化学习
性能势
G-学习
马尔可夫决策过程
半马尔可夫决策过程
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导