基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法。首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的。仿真结果表明该算法能够满足实时系统性能的要求。
推荐文章
一种基于模糊逻辑的贝叶斯最优学习器
贝叶斯最优分类器
模糊信息处理
变压器
故障诊断
一种基于贝叶斯网客户购物模型的商品推荐方法
Web挖掘
贝叶斯网
客户购物模型
个性化推荐
一种基于半监督主动学习的动态贝叶斯网络算法
动态贝叶斯网络
半监督主动学习
主动学习
最小相对熵
投票熵
一种贝叶斯诊断网络的拓扑结构
贝叶斯网络
工程诊断
不确定性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于模型的可分解贝叶斯在线强化学习
来源期刊 电子学报 学科 工学
关键词 马尔可夫决策过程 贝叶斯强化学习 动态贝叶斯网路
年,卷(期) 2014,(7) 所属期刊栏目 科研通信
研究方向 页码范围 1429-1434
页数 6页 分类号 TP181
字数 6371字 语种 中文
DOI 10.3969/j.issn.0372-2112.2014.07.029
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 仵博 深圳职业技术学院教育技术与信息中心 39 177 6.0 11.0
2 郑红燕 深圳职业技术学院教育技术与信息中心 13 22 3.0 3.0
3 冯延蓬 深圳职业技术学院教育技术与信息中心 25 74 5.0 6.0
4 陈鑫 中南大学信息科学与工程学院 58 403 10.0 17.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (134)
共引文献  (52)
参考文献  (11)
节点文献
引证文献  (5)
同被引文献  (6)
二级引证文献  (2)
1966(1)
  • 参考文献(0)
  • 二级参考文献(1)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1971(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1992(4)
  • 参考文献(0)
  • 二级参考文献(4)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(3)
  • 参考文献(0)
  • 二级参考文献(3)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1998(7)
  • 参考文献(0)
  • 二级参考文献(7)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(7)
  • 参考文献(0)
  • 二级参考文献(7)
2002(7)
  • 参考文献(0)
  • 二级参考文献(7)
2003(8)
  • 参考文献(1)
  • 二级参考文献(7)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(12)
  • 参考文献(0)
  • 二级参考文献(12)
2006(10)
  • 参考文献(1)
  • 二级参考文献(9)
2007(12)
  • 参考文献(1)
  • 二级参考文献(11)
2008(11)
  • 参考文献(0)
  • 二级参考文献(11)
2009(11)
  • 参考文献(1)
  • 二级参考文献(10)
2010(9)
  • 参考文献(2)
  • 二级参考文献(7)
2011(8)
  • 参考文献(1)
  • 二级参考文献(7)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(4)
  • 引证文献(2)
  • 二级引证文献(2)
研究主题发展历程
节点文献
马尔可夫决策过程
贝叶斯强化学习
动态贝叶斯网路
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
论文1v1指导