作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法。分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性。结合动作奖赏及动作代价提出一种新的启发函数定义。该启发函数在强调动作重要性以加快学习速度的同时,基于代价函数计算动作选择的代价以减少不必要的探索,从而平稳地提高学习效率。对基于代价函数的动作选择策略进行证明。建立两种仿真场景,将算法用于机器人路径规划的仿真实验。实验结果表明基于状态回溯的启发式强化学习方法能平衡考虑获得的奖赏及付出的代价,有效提高Q学习的收敛速度。
推荐文章
在线更新的信息强度引导启发式Q学习
强化学习
启发函数
信息强度
在线更新
收敛速度
基于案例推理和启发式Q学习的资源分配算法
信道和功率分配
启发式Q学习
案例推理
认知无线电
认知系统能量效率
成功传输概率
传统启发式教学与现代启发式教学之对比研究
传统启发式
现代启发式
对比研究
一种基于状态空间的启发式搜索算法及其实现
启发式算法
A-Star算法
状态空间
估价函数
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于状态回溯代价分析的启发式Q学习*
来源期刊 模式识别与人工智能 学科 工学
关键词 代价分析 启发函数 状态回溯 Q学习
年,卷(期) 2013,(9) 所属期刊栏目 研究与应用
研究方向 页码范围 838-844
页数 7页 分类号 TP181
字数 6424字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 方敏 西安电子科技大学计算机学院 34 305 11.0 16.0
2 李浩 西安电子科技大学计算机学院 5 26 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (173)
参考文献  (10)
节点文献
引证文献  (15)
同被引文献  (44)
二级引证文献  (23)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(4)
  • 参考文献(0)
  • 二级参考文献(4)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(4)
  • 参考文献(2)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(4)
  • 参考文献(3)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(12)
  • 引证文献(7)
  • 二级引证文献(5)
2019(17)
  • 引证文献(4)
  • 二级引证文献(13)
2020(6)
  • 引证文献(1)
  • 二级引证文献(5)
研究主题发展历程
节点文献
代价分析
启发函数
状态回溯
Q学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导