基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
虽然在深度学习与强化学习结合后,人工智能在棋类游戏和视频游戏等领域取得了超越人类水平的重大成就,但是实时策略性游戏星际争霸由于其巨大的状态空间和动作空间,对于人工智能研究者来说是一个巨大的挑战平台,针对Deepmind在星际争霸Ⅱ迷你游戏中利用经典的深度强化学习算法A3C训练出来的基线智能体的水平和普通业余玩家的水平相比还存在较大的差距的问题.通过采用更简化的网络结构以及把注意力机制与强化学习中的奖励结合起来的方法,提出基于状态注意力的A3C算法,所训练出来的智能体在个别星际迷你游戏中利用更少的特征图层取得的成绩最高,高于Deepmind的基线智能体71分.
推荐文章
基于注意力机制的音乐深度推荐算法
深度学习
注意力机制
音乐推荐
具有全局特征的空间注意力机制
卷积神经网络
空间注意力机制
全局特征
特征融合
目标分类
目标检测
基于注意力机制的全景分割网络
全景分割
背景类实例重叠
三重态注意力机制
语义增强注意力机制
一种基于注意力机制的语音情感识别算法研究
语音情感识别
深度学习
注意力机制
语谱图
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 深度强化学习中状态注意力机制的研究
来源期刊 智能系统学报 学科 工学
关键词 深度学习 强化学习 注意力机制 A3C算法 星际争霸Ⅱ迷你游戏 智能体 微型操作
年,卷(期) 2020,(2) 所属期刊栏目 机器学习
研究方向 页码范围 317-322
页数 6页 分类号 TP183
字数 4966字 语种 中文
DOI 10.11992/tis.201809033
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 尹传环 北京交通大学交通数据分析与挖掘北京市重点实验室 14 117 7.0 10.0
2 申翔翔 北京交通大学交通数据分析与挖掘北京市重点实验室 1 0 0.0 0.0
3 侯新文 中国科学院自动化研究所智能系统与工程研究中心 4 36 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度学习
强化学习
注意力机制
A3C算法
星际争霸Ⅱ迷你游戏
智能体
微型操作
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
智能系统学报
双月刊
1673-4785
23-1538/TP
大16开
哈尔滨市南岗区南通大街145-1号楼
2006
chi
出版文献量(篇)
2770
总下载数(次)
11
总被引数(次)
12401
论文1v1指导