基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa (λ)算法。该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略。在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa (λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题。将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性。
推荐文章
一种DAG云任务多目标调度算法
云计算
任务调度
粒子群算法
模糊占优排序
多目标优化
一种新型的多目标优化混合量子进化算法
多目标优化
量子进化算法
量子门
旋转角
交叉
一种新型约束多目标帝国竞争算法
多目标优化问题
约束处理
帝国竞争算法
同化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种最大集合期望损失的多目标Sarsa(λ)算法
来源期刊 电子学报 学科 工学
关键词 多目标 自适应Sarsa(λ) 最大集合期望损失 强化学习 机器人足球
年,卷(期) 2013,(8) 所属期刊栏目 学术论文
研究方向 页码范围 1469-1473
页数 5页 分类号 TP181
字数 5958字 语种 中文
DOI 10.3969/j.issn.0372-2112.2013.08.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机与科学学院 99 1053 16.0 29.0
3 伏玉琛 苏州大学计算机与科学学院 35 201 8.0 11.0
4 崔志明 苏州大学计算机与科学学院 169 2304 25.0 38.0
5 李瑾 苏州大学计算机与科学学院 27 176 6.0 13.0
8 傅启明 苏州大学计算机与科学学院 23 360 10.0 18.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (19)
参考文献  (8)
节点文献
引证文献  (3)
同被引文献  (28)
二级引证文献  (39)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(2)
  • 引证文献(0)
  • 二级引证文献(2)
2016(6)
  • 引证文献(0)
  • 二级引证文献(6)
2017(9)
  • 引证文献(1)
  • 二级引证文献(8)
2018(12)
  • 引证文献(0)
  • 二级引证文献(12)
2019(10)
  • 引证文献(0)
  • 二级引证文献(10)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
多目标
自适应Sarsa(λ)
最大集合期望损失
强化学习
机器人足球
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
论文1v1指导