原文服务方: 计算技术与自动化       
摘要:
针对传统强化学习算法在训练初期缺乏对周围环境的先验知识,模块化自重构机器人会随机选择动作,导致迭代次数浪费和算法收敛速度缓慢的问题,提出一种两阶段强化学习算法。在第一阶段,利用基于群体和知识共享的Q-learning训练机器人前往网格地图的中心点,以获得一个最优共享Q表。在这个阶段中,为了减少迭代次数,提高算法的收敛速度,引入了曼哈顿距离作为奖赏值,以引导机器人向有利于中心点方向移动,减小稀疏奖励的影响。在第二阶段,机器人根据这个最优共享Q表和当前所处的位置,找到前往指定目标点的最优路径,形成指定的队形。实验结果表明,在50×50的网格地图中,与对比算法相比,该算法成功训练机器人到达指定目标点,减少了将近50%的总探索步数。此外,当机器人进行队形转换时,编队运行时间减少了近5倍。
推荐文章
水下模块化自重构机器人构形拓扑转换
自重构机器人
模块化自重构机器人
构形拓扑
拓扑转换
最优拓扑转换
基于万向式关节的模块化自重构机器人
模块化
自重构机器人
万向关节
连接机构
模块化机器人拓扑重构规划研究
机器人
重构规划
可重构
模块化
拓扑结构
自重构机器人的自组织变形
机器人
自重构
变形规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进强化学习的模块化自重构机器人编队
来源期刊 计算技术与自动化 学科
关键词 模块化自重构机器人 强化学习 多智能体 编队
年,卷(期) 2022,(3) 所属期刊栏目 控制系统与自动化装置
研究方向 页码范围 6-13
页数 7页 分类号 TP39
字数 语种 中文
DOI 10.16339/j.cnki.jsjsyzdh.202203002
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
模块化自重构机器人
强化学习
多智能体
编队
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算技术与自动化
季刊
1003-6199
43-1138/TP
16开
1982-01-01
chi
出版文献量(篇)
2979
总下载数(次)
0
论文1v1指导