基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA).该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度.此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度.将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性.
推荐文章
启发式最短路算法
算法
最短路
启发函数
一种新的基于值函数迁移的快速Sarsa算法
强化学习
VFT-Sarsa算法
自模拟度量
值函数迁移
基于案例推理和启发式Q学习的资源分配算法
信道和功率分配
启发式Q学习
案例推理
认知无线电
认知系统能量效率
成功传输概率
基于Rollout信息启发式算法的故障诊断策略
测试性设计
诊断策略
Rollout算法
信息启发函数
二值测试
多值测试
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于值函数迁移的启发式Sarsa算法
来源期刊 通信学报 学科 工学
关键词 强化学习 值函数迁移 自模拟度量 变分贝叶斯
年,卷(期) 2018,(8) 所属期刊栏目 论文Ⅰ:人工智能与网络安全
研究方向 页码范围 37-47
页数 11页 分类号 TP391
字数 8995字 语种 中文
DOI 10.11959/j.issn.1000-436x.2018133
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (3)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
值函数迁移
自模拟度量
变分贝叶斯
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信学报
月刊
1000-436X
11-2102/TN
大16开
北京市丰台区成寿路11号邮电出版大厦8层
2-676
1980
chi
出版文献量(篇)
6235
总下载数(次)
17
总被引数(次)
85479
论文1v1指导