原文服务方: 现代电子技术       
摘要:
针对大规模、连续空问随着状态维度指数级增加造成的“维数灾”问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法.通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合.将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大.以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题.
推荐文章
有限连续空间中广义向量拟均衡系解的存在性
广义向量拟均衡问题
有限连续空间
极大元定理
离散空间中正交小波分解重构算法的实现
离散周期小波
离散非周期小波
分解算法
重构算法
小波尺度空间中的边缘检测算法
边缘检测
尺度空间
平移不变小波阈值
高斯滤波
障碍空间中带方向的密度聚类算法研究
聚类方向
密度聚类
障碍空间
公路选线
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 连续空间中的随机技能发现算法
来源期刊 现代电子技术 学科
关键词 强化学习 Option 连续空间 随机技能发现
年,卷(期) 2016,(10) 所属期刊栏目 科学计算与信息处理
研究方向 页码范围 14-17,20
页数 5页 分类号 TN911-34|TP18
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2016.10.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
5 栾咏红 19 110 6.0 10.0
7 章鹏 苏州大学计算机科学与技术学院 7 93 3.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (50)
共引文献  (14)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (15)
二级引证文献  (3)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(6)
  • 参考文献(1)
  • 二级参考文献(5)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
强化学习
Option
连续空间
随机技能发现
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导