基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优.
推荐文章
基于GAED-MADDPG多智能体强化学习的协作策略研究
强化学习
群体协作
深度学习
群体智慧
基于多智能体强化学习的多AGV路径规划方法
多智能体强化学习
AGV路径规划
独立强化学习
基于强化学习的多智能体协作方法研究
多智能体
协作系统
强化学习
多智能体强化学习在城市交通网络信号控制方法中的应用综述
智能交通
交通控制
多智能体强化学习
闭环反馈
联动协调
数据驱动
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 序列多智能体强化学习算法
来源期刊 模式识别与人工智能 学科
关键词 多智能体强化学习 深度确定性策略梯度(DDPG) 序列到序列(Seq2Seq) 分块结构
年,卷(期) 2021,(3) 所属期刊栏目 “强化学习研究”|Research on Reinforcement Learning
研究方向 页码范围 206-213
页数 8页 分类号 TP18
字数 语种 中文
DOI 10.16451/j.cnki.issn1003-6059.202103002
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
多智能体强化学习
深度确定性策略梯度(DDPG)
序列到序列(Seq2Seq)
分块结构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导