基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制.并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络.通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升.
推荐文章
基于重要性采样的优势估计器
强化学习
重要性采样
深度强化学习
优势函数
重要性采样研究进展
重要性采样
降方差
蒙特卡罗仿真
快速仿真
基于排名聚合的时序网络节点重要性研究
节点重要性
排名聚合理论
评分矩阵
时序网络
基于节点疏远方法的网络节点重要性评价
通信网络
拓扑安全
关键节点
评价
节点疏远
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于异环境重要性采样的增强DDRQN网络
来源期刊 火力与指挥控制 学科 工学
关键词 多智能体 强化学习 局部可观测 经验回放机制 重要性采样
年,卷(期) 2020,(1) 所属期刊栏目 理论研究
研究方向 页码范围 47-52
页数 6页 分类号 TP18
字数 5063字 语种 中文
DOI 10.3969/j.issn.1002-0640.2020.01.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 普杰信 河南科技大学信息工程学院 106 703 15.0 20.0
2 张森 河南科技大学信息工程学院 24 50 3.0 6.0
3 樊龙涛 河南科技大学信息工程学院 1 0 0.0 0.0
4 刘源源 河南科技大学信息工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
多智能体
强化学习
局部可观测
经验回放机制
重要性采样
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
火力与指挥控制
月刊
1002-0640
14-1138/TJ
大16开
山西太原193号信箱
22-134
1976
chi
出版文献量(篇)
9188
总下载数(次)
26
总被引数(次)
34280
论文1v1指导