基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明 PBVIOP 算法能够收敛到全局最优解,并明显提高了收敛效率.
推荐文章
基于观测的POMDP优化算法及其仿真
部分可观测马尔可夫决策过程(POMDP)
灵敏度分析
优化
仿真
POMDP基于点的值迭代算法中一种信念选择方法
POMDP
值迭代
基于点的算法
信念选择
不确定性
一种基于独立任务的 POMDP 问题的解决方法
POMDP
基于点的算法
相互独立的任务
多元 POMDP
受限制的 POMDPs
一种基于权重策略的蝙蝠算法
蝙蝠算法
权重策略
自适应学习
算法性能
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于最优策略概率分布的 POMDP 值迭代算法
来源期刊 电子学报 学科 工学
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
年,卷(期) 2016,(5) 所属期刊栏目 学术论文
研究方向 页码范围 1078-1084
页数 7页 分类号 TP319
字数 6451字 语种 中文
DOI 10.3969/j.issn.0372-2112.2016.05.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王崇骏 南京大学计算机科学与技术系 56 1131 15.0 32.0
5 刘峰 南京大学软件学院 17 102 6.0 9.0
9 骆斌 南京大学软件学院 55 1120 14.0 32.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (32)
共引文献  (16)
参考文献  (8)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (2)
1973(2)
  • 参考文献(1)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
部分可观测马尔科夫决策过程
基于最优策略概率的值迭代算法
蒙特卡罗法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
论文1v1指导