基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR-MPI).首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据.其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数.然后,为了构建PBR-MPI算法的适用场景,本文根据目前多智能体系统(Multi-Agent System,MAS)的最新研究进展,将多智能体的信息交互方式归纳总结为集中式信息交互、全信息交互和欠信息交互三大类.最后,将新算法与其它的多智能体DRL算法分别在三种不同的信息交互场景中进行对比实验,用于验证和评价PBR-MPI的有效性及整体性能.实验结果表明,在智能体个数为5的多智能体目标追踪任务中,缓存区数为3、线程数为5的PBR-MPI算法的学习收敛速度平均提高了21%,训练效率平均提升了34%,并且在综合性能的评估中新算法的整体性能改善了50%.
推荐文章
多智能体深度强化学习研究综述
强化学习
深度学习
多智能体系统
多智能体深度强化学习
基于多线程并行强化学习的建筑节能方法
强化学习
并行强化学习
经验回放
多线程技术
建筑节能
多智能体深度强化学习的若干关键科学问题
强化学习
深度强化学习
多智能体
学习系统
智能控制
决策优化
基于事件驱动的多智能体强化学习研究
事件驱动
多智能体
强化学习
分布式马尔科夫决策过程
收敛性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分区缓存区重放与多线程交互的多智能体深度强化学习算法
来源期刊 计算机学报 学科
关键词 分区缓存区重放 多线程交互 深度强化学习 多智能体 信息交互 行为决策
年,卷(期) 2021,(6) 所属期刊栏目 人工智能与社会计算
研究方向 页码范围 1140-1152
页数 13页 分类号 TP18
字数 语种 中文
DOI 10.11897/SP.J.1016.2021.01140
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (71)
共引文献  (98)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(5)
  • 参考文献(0)
  • 二级参考文献(5)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(7)
  • 参考文献(0)
  • 二级参考文献(7)
2015(8)
  • 参考文献(1)
  • 二级参考文献(7)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(5)
  • 参考文献(0)
  • 二级参考文献(5)
2018(12)
  • 参考文献(1)
  • 二级参考文献(11)
2019(7)
  • 参考文献(5)
  • 二级参考文献(2)
2020(2)
  • 参考文献(2)
  • 二级参考文献(0)
2021(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分区缓存区重放
多线程交互
深度强化学习
多智能体
信息交互
行为决策
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
论文1v1指导