原文服务方: 机器人       
摘要:
本文研究了机器人足球赛中利用增强学习进行角色分工的问题,通过仿真试验和理论分析,指出文[1]中采取无限作用范围衰减奖励优化模型(infinite-horizon discounted model)的Q学习算法对该任务不合适,并用平均奖励模型(average-reward model)对算法进行了改进,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍.
推荐文章
一项适合我国学校开展足球运动的赛制——评议“五人制”足球赛
赛制
五人制
竞赛规则
学校足球运功
足球比赛
仿真机器人足球中的强化学习
仿真机器人足球
强化学习
多主体系统
机器人足球赛相关技术研究
Robocup
相关技术
智能体
多智能体系统(MAS)
协作
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 机器人足球赛中基于增强学习的任务分工
来源期刊 机器人 学科
关键词 Q算法 无限作用范围衰减奖励优化模型 平均奖励优化模型
年,卷(期) 2000,(6) 所属期刊栏目 论文与报告
研究方向 页码范围 482-489
页数 8页 分类号 TP24
字数 语种 中文
DOI 10.3321/j.issn:1002-0446.2000.06.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 席裕庚 上海交通大学自动化研究所 217 6520 41.0 71.0
2 陈卫东 上海交通大学自动化研究所 95 2775 28.0 49.0
3 顾冬雷 上海交通大学自动化研究所 7 179 6.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (35)
同被引文献  (16)
二级引证文献  (90)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2002(3)
  • 引证文献(3)
  • 二级引证文献(0)
2003(3)
  • 引证文献(3)
  • 二级引证文献(0)
2004(10)
  • 引证文献(9)
  • 二级引证文献(1)
2005(10)
  • 引证文献(3)
  • 二级引证文献(7)
2006(21)
  • 引证文献(4)
  • 二级引证文献(17)
2007(16)
  • 引证文献(4)
  • 二级引证文献(12)
2008(13)
  • 引证文献(1)
  • 二级引证文献(12)
2009(12)
  • 引证文献(1)
  • 二级引证文献(11)
2010(6)
  • 引证文献(2)
  • 二级引证文献(4)
2011(8)
  • 引证文献(2)
  • 二级引证文献(6)
2012(9)
  • 引证文献(1)
  • 二级引证文献(8)
2013(4)
  • 引证文献(0)
  • 二级引证文献(4)
2014(4)
  • 引证文献(0)
  • 二级引证文献(4)
2015(2)
  • 引证文献(0)
  • 二级引证文献(2)
2016(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Q算法
无限作用范围衰减奖励优化模型
平均奖励优化模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
机器人
双月刊
1002-0446
21-1137/TP
大16开
1979-01-01
chi
出版文献量(篇)
2337
总下载数(次)
0
总被引数(次)
57113
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导