作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
标准的强化学习通常用于解决离散状态空间和行动空间序列决策问题,而很多实际系统的状态和行动为连续变量甚至混合变量,连续状态-连续行动强化学习已经成为该领域研究热点。该文将重点讨论一些将强化学习从离散空间推广到连续空间上的技术或方法,主要从离散化和值函数逼近两方面分析了国内外的研究现状,并介绍了一些常用方法的具体实现。最后,对连续状态-连续行动强化学习未来可能发展方向进行展望。
推荐文章
基于核方法的强化学习算法
强化学习
核方法
马尔科夫决策过程
Q-learning
mountiain car
基于高斯过程分类器的连续空间强化学习
高斯过程
分类器
连续空间
强化学习
小船靠岸问题
概率近似正确的强化学习算法解决连续状态空间控制问题
强化学习
概率近似正确
kd树
双连杆机械臂
一种强化学习行动策略ε-greedy的改进方法
强化学习
ε-greedy策略
探索与利用
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 连续状态-连续行动强化学习
来源期刊 电脑知识与技术:学术交流 学科 工学
关键词 强化学习 连续状态-连续行动 离散化 值函数逼近
年,卷(期) 2011,(7) 所属期刊栏目
研究方向 页码范围 4669-4672
页数 4页 分类号 TP202
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 夏丽丽 5 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (32)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
连续状态-连续行动
离散化
值函数逼近
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑知识与技术:学术版
旬刊
1009-3044
34-1205/TP
安徽合肥市濉溪路333号
26-188
出版文献量(篇)
41621
总下载数(次)
23
总被引数(次)
0
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导