基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
知识迁移是当前机器学习领域的一个新的研究热点。其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的。针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度。基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法———VFT-Sarsa 。该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习。将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度。
推荐文章
基于值函数迁移的启发式Sarsa算法
强化学习
值函数迁移
自模拟度量
变分贝叶斯
一种新的求解函数优化问题的快速演化算法
演化算法
函数优化
混合变异
随机排序
一种新的基于蚁群优化的模糊强化学习算法
强化学习
模糊Sarsa学习
蚁群优化
一种新阈值函数的小波包语音增强算法
语音增强
小波包
阈值函数
Bark尺度小波包分解结构
信噪比
分段信噪比
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的基于值函数迁移的快速Sarsa算法
来源期刊 电子学报 学科 工学
关键词 强化学习 VFT-Sarsa算法 自模拟度量 值函数迁移
年,卷(期) 2014,(11) 所属期刊栏目 学术论文
研究方向 页码范围 2157-2161
页数 5页 分类号 TP181
字数 5053字 语种 中文
DOI 10.3969/j.issn.0372-2112.2014.11.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
5 章晓芳 苏州大学计算机科学与技术学院 11 33 3.0 5.0
6 黄蔚 苏州大学计算机科学与技术学院 15 47 5.0 6.0
7 傅启明 苏州大学计算机科学与技术学院 23 360 10.0 18.0
8 尤树华 苏州大学计算机科学与技术学院 4 32 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (20)
参考文献  (2)
节点文献
引证文献  (11)
同被引文献  (3)
二级引证文献  (3)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(4)
  • 引证文献(3)
  • 二级引证文献(1)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
VFT-Sarsa算法
自模拟度量
值函数迁移
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
论文1v1指导