原文服务方: 科技与创新       
摘要:
传统的强化学习算法通常假设状态空间和行动空间是离散的,而实际上很多问题的状态空间是连续的,这就大大地限制了强化学习在实际中的应用.为克服以上不足,本文提出了一种基于核方法的强化学习算法,能直接处理具有连续状态空间的问题.最后,通过具有连续状态空间和离散行动空间的mountain car问题来验证算法.实验表明,这种算法在处理具有连续状态空间的问题时,和传统的先把状态空间离散化的方法相比,能以较少的训练数据收敛到更好的策略.
推荐文章
基于个性的群体强化学习算法
个性
Agent
群体强化学习
RoboCup
基于深度强化学习的图像修复算法设计
图像修复
机器学习
深度强化学习
大数据
自相似
关联性
基于蚂蚁优化算法的分层强化学习
蚂蚁系统优化算法
强化学习
Option
瓶颈边
基于强化学习的一类NP问题求解算法
Agent
强化学习
NP问题
货郎担问题
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于核方法的强化学习算法
来源期刊 科技与创新 学科
关键词 强化学习 核方法 马尔科夫决策过程 Q-learning mountiain car
年,卷(期) 2008,(4) 所属期刊栏目 软件天地
研究方向 页码范围 243-245
页数 3页 分类号 TP181
字数 语种 中文
DOI 10.3969/j.issn.1008-0570.2008.04.103
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张文生 中国科学院自动化研究所 98 1246 18.0 33.0
2 何源 中国科学院自动化研究所 37 97 6.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (3)
参考文献  (3)
节点文献
引证文献  (3)
同被引文献  (4)
二级引证文献  (2)
1989(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
强化学习
核方法
马尔科夫决策过程
Q-learning
mountiain car
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导