基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.
推荐文章
基于多智能体深度强化学习的分布式干扰协调
多智能体深度强化学习
非实时业务
分布式干扰协调
超密集网络
引入深度遍历机制的分布式数据结构插值算法
数据结构
数据库
存储
遍历
插值
链式多智能体遗传算法在分布式电源全时序上优化配置
微电网
分布式电源
有功网损
选址和定容
多智能体算法
多智能体合作环境下的分布式强化学习
多智能体系统
强化学习
分布式学习
适应性
协作
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于值分布的多智能体分布式深度强化学习算法
来源期刊 计算机系统应用 学科
关键词 多智能体 深度强化学习 值分布 多步回报 分布式数据生成
年,卷(期) 2022,(1) 所属期刊栏目 软件技术·算法|Software Technique·Algorithm
研究方向 页码范围 145-151
页数 7页 分类号
字数 语种 中文
DOI 10.15888/j.cnki.csa.008237
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
多智能体
深度强化学习
值分布
多步回报
分布式数据生成
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导