基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快.
推荐文章
基于车辆行驶状态的EPS助力特性研究
电动助力转向
助力特性
车辆行驶状态
基于虚拟激励法的变速行驶车辆振动分析
振动分析
非平稳随机振动
虚拟激励法
瞬时功率谱
路面输入随机响应
基于Q学习的自主Agent模型
Agent
强化学习
Q学习
BDI模型
车辆行驶的虚坡模型
跟车
超车
虚坡
交通流
元胞自动机
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于AMDP-Q的自主车辆行驶策略求解
来源期刊 华中科技大学学报(自然科学版) 学科 工学
关键词 自主汽车 部分可观察马尔可夫决策过程(POMDP) Q学习 增广马尔可夫决策过程(AMDP) 连续状态空间
年,卷(期) 2011,(z2) 所属期刊栏目 机器学习、算法与系统仿真
研究方向 页码范围 370-373
页数 分类号 TP242
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钱徽 浙江大学计算机科学与技术学院 25 253 8.0 15.0
2 陈沈轶 浙江大学计算机科学与技术学院 5 60 3.0 5.0
3 金卓军 浙江大学计算机科学与技术学院 5 18 3.0 4.0
4 夏林锋 浙江大学计算机科学与技术学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
自主汽车
部分可观察马尔可夫决策过程(POMDP)
Q学习
增广马尔可夫决策过程(AMDP)
连续状态空间
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华中科技大学学报(自然科学版)
月刊
1671-4512
42-1658/N
大16开
武汉市珞喻路1037号
38-9
1973
chi
出版文献量(篇)
9146
总下载数(次)
26
总被引数(次)
88536
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导