基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的LQR控制问题.本文对现有两种用于LQR问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习方法.该方法使用递推最小二乘TD(RLS-TD)方法估计值函数参数,递推最小二乘方法(RLS)估计贪心改进策略.并给出理想情况下此方法收敛的理论分析.仿真实验表明该方法收敛到最优控制策略.
推荐文章
一种基于案例推理的多agent强化学习方法研究
多agent强化学习
Q学习
策略再用
基于案例的推理
追捕问题
一种基于强化学习的多指手位置控制方法
多指手
非线性
强化学习
自适应评价算法
一种强化学习行动策略ε-greedy的改进方法
强化学习
ε-greedy策略
探索与利用
基于强化学习方法的悬浮车停车混合控制设计
强化学习
混合控制系统
建模
最优化
高斯噪声
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种用于LQR控制问题的强化学习方法
来源期刊 模式识别与人工智能 学科 工学
关键词 强化学习 递推最小二乘 TD学习 最优控制
年,卷(期) 2006,(3) 所属期刊栏目 研究与应用
研究方向 页码范围 406-411
页数 6页 分类号 TP13
字数 5381字 语种 中文
DOI 10.3969/j.issn.1003-6059.2006.03.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周光明 中国科学技术大学自动化系 43 327 10.0 16.0
2 陈宗海 中国科学技术大学自动化系 151 2270 25.0 40.0
3 文锋 中国科学技术大学自动化系 8 87 5.0 8.0
4 陈春林 中国科学技术大学自动化系 7 118 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (2)
同被引文献  (3)
二级引证文献  (15)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(1)
  • 引证文献(1)
  • 二级引证文献(0)
2008(2)
  • 引证文献(0)
  • 二级引证文献(2)
2009(2)
  • 引证文献(0)
  • 二级引证文献(2)
2010(2)
  • 引证文献(0)
  • 二级引证文献(2)
2013(2)
  • 引证文献(0)
  • 二级引证文献(2)
2014(2)
  • 引证文献(0)
  • 二级引证文献(2)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
强化学习
递推最小二乘
TD学习
最优控制
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
论文1v1指导