基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法.首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈.仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出"围捕""拦截""合作""潜伏"等一系列智能博弈行为,有效地实现了博弈目的.
推荐文章
基于强化学习的多智能体协作方法研究
多智能体
协作系统
强化学习
基于多智能体强化学习的多AGV路径规划方法
多智能体强化学习
AGV路径规划
独立强化学习
基于博弈强化学习的多智能体协作行为寻优
多Agent博弈
动态协作寻优
改进Pareto-Q
收益分配
基于GAED-MADDPG多智能体强化学习的协作策略研究
强化学习
群体协作
深度学习
群体智慧
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多智能体强化学习的轨道追逃博弈方法
来源期刊 上海航天(中英文) 学科 航空航天
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
年,卷(期) 2022,(2) 所属期刊栏目 空天安全技术专栏|Technology of Space Safety
研究方向 页码范围 24-31
页数 8页 分类号 V448.21
字数 语种 中文
DOI 10.19328/j.cnki.2096‑8655.2022.02.004
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
集群卫星
非合作目标
追逃博弈
奖励塑造
多智能体深度确定性策略梯度算法
涌现
智能
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
上海航天
双月刊
1006-1630
31-1481/V
上海元江路3888号南楼
chi
出版文献量(篇)
2265
总下载数(次)
4
总被引数(次)
11928
论文1v1指导