作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法.引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实现trial-and-error过程生成核心状态基函数,采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器,采用贪心策略设计动作选择器,利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型;而后基于Dyna框架的模型辨识思想,将学习和规划过程有机结合,进一步加快了增强学习速度.一级倒立摆平衡控制的仿真实验中,当增强学习误差率为0.01时,算法学习成功率为100%,学习成功的最小尝试次数仅为2,平均尝试次数仅为7.73,角度平均绝对偏差为3.0538°,角度平均振荡范围为2.759°;当增强学习误差率为0.1时进行100次独立仿真运算,相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略,而NPAPI-Dyna基本可在50次尝试内学习成功.实验分析表明,NPAPI-Dyna能够完全自动地构建、调整增强学习结构,学习结果精度较高,同时较快收敛.
推荐文章
基于CMAC的非参数化近似策略迭代增强学习
增强学习
小脑关节模型控制器
非参数化
倒立摆
非参数化近似策略迭代并行强化学习算法
并行强化学习
非参数化
策略迭代
K均值聚类
倒立摆
基于输入轨迹参数化的间歇过程迭代学习控制
间歇式
优化
化学过程
迭代学习控制
输入参数化
基于 Boosting框架的非稀疏多核学习方法
集成学习
非稀疏多核学习
弱分类器
基本核
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Dyna框架的非参数化近似策略迭代增强学习
来源期刊 计算机应用 学科 工学
关键词 增强学习 Dyna框架 策略迭代 非参数化近似策略 倒立摆
年,卷(期) 2018,(5) 所属期刊栏目 人工智能
研究方向 页码范围 1230-1238
页数 9页 分类号 TP181
字数 10665字 语种 中文
DOI 10.11772/j.issn.1001-9081.2017102531
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张华 南昌大学江西省机器人与焊接自动化重点实验室 348 2909 25.0 35.0
2 季挺 南昌大学江西省机器人与焊接自动化重点实验室 4 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (104)
参考文献  (8)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(3)
  • 参考文献(3)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
增强学习
Dyna框架
策略迭代
非参数化近似策略
倒立摆
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导