基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态-动作-奖励-状态-动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.
推荐文章
基于核方法的强化学习算法
强化学习
核方法
马尔科夫决策过程
Q-learning
mountiain car
基于强化学习的一类NP问题求解算法
Agent
强化学习
NP问题
货郎担问题
基于高斯过程分类器的连续空间强化学习
高斯过程
分类器
连续空间
强化学习
小船靠岸问题
非参数化近似策略迭代并行强化学习算法
并行强化学习
非参数化
策略迭代
K均值聚类
倒立摆
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 概率近似正确的强化学习算法解决连续状态空间控制问题
来源期刊 控制理论与应用 学科 工学
关键词 强化学习 概率近似正确 kd树 双连杆机械臂
年,卷(期) 2016,(12) 所属期刊栏目 论文与报告
研究方向 页码范围 1603-1613
页数 11页 分类号 TP273
字数 11500字 语种 中文
DOI 10.7641/CTA.2016.60512
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵冬斌 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 58 1184 19.0 32.0
2 朱圆恒 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 2 56 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (100)
共引文献  (270)
参考文献  (14)
节点文献
引证文献  (5)
同被引文献  (9)
二级引证文献  (53)
1956(1)
  • 参考文献(0)
  • 二级参考文献(1)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1965(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(2)
  • 参考文献(0)
  • 二级参考文献(2)
1992(12)
  • 参考文献(0)
  • 二级参考文献(12)
1993(3)
  • 参考文献(0)
  • 二级参考文献(3)
1994(7)
  • 参考文献(0)
  • 二级参考文献(7)
1995(4)
  • 参考文献(1)
  • 二级参考文献(3)
1996(6)
  • 参考文献(0)
  • 二级参考文献(6)
1997(6)
  • 参考文献(0)
  • 二级参考文献(6)
1998(9)
  • 参考文献(0)
  • 二级参考文献(9)
1999(6)
  • 参考文献(1)
  • 二级参考文献(5)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(2)
  • 二级参考文献(1)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(4)
  • 参考文献(1)
  • 二级参考文献(3)
2015(8)
  • 参考文献(2)
  • 二级参考文献(6)
2016(7)
  • 参考文献(2)
  • 二级参考文献(5)
2016(7)
  • 参考文献(2)
  • 二级参考文献(5)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(13)
  • 引证文献(1)
  • 二级引证文献(12)
2019(29)
  • 引证文献(2)
  • 二级引证文献(27)
2020(14)
  • 引证文献(0)
  • 二级引证文献(14)
研究主题发展历程
节点文献
强化学习
概率近似正确
kd树
双连杆机械臂
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
控制理论与应用
月刊
1000-8152
44-1240/TP
大16开
广州市五山华南理工大学内
46-11
1984
chi
出版文献量(篇)
4979
总下载数(次)
16
总被引数(次)
72515
论文1v1指导