基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在强化学习方法中,大部分的算法都是基于值函数评估的算法。高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型。在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高。针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较。实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间。
推荐文章
一种基于时间差分算法的神经网络预测控制系统
时间差分法
BP算法
神经网络预测控制
单值预测控制算法
一种基于可靠度估计的到达时间差滤波方法
到达时间差
可靠度
互相关
滤波算法
准确度
A/D 采样
一种互相关法联合STFT的时间差测量算法
时间差测量算法
互相关法
短时傅里叶变换
窗函数
基于改进时间差分的视觉/惯性组合导航研究
惯性导航
机器视觉
零速校准
卡尔曼滤波
组合导航
时间差分
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于随机投影的贝叶斯时间差分算法
来源期刊 电子学报 学科 工学
关键词 强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
年,卷(期) 2016,(11) 所属期刊栏目 学术论文
研究方向 页码范围 2752-2757
页数 6页 分类号 TP181
字数 6441字 语种 中文
DOI 10.3969/j.issn.0372-2112.2016.11.026
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (2)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (11)
二级引证文献  (1)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
强化学习
马尔科夫决策过程
高斯过程
随机投影
时间差分算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
论文1v1指导