基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在深度强化学习中,智能体需要与环境进行交互学习,这就需要智能体能够很好地去平衡利用与探索.因此如何提升算法的样本有效性,增加算法的探索能力,一直是深度强化学习领域中非常重要的研究方向.结合已有研究成果,提出了一种交替使用多个不同初始化深度Q网络方法,使用网络随机初始化带来的探索性能.基于最大置信度上界算法先构造一种交替选择深度Q网络策略.并将该调度网络策略与多个随机初始化的深度Q网络结合,得到基于最大置信度上界的交替深度Q网络算法.在多个不同的标准强化学习实验环境上的实验结果表明,该算法比其他基准算法有更高的样本效率和算法学习效率.
推荐文章
一种深度Q网络的改进算法
深度Q网络
过估计问题
更正函数
状态-动作值
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
基于期望值函数的离策略深度Q神经网络算法
深度Q神经网络
期望值函数
离策略
策略表现
基于优势学习的深度Q网络
强化学习
优势学习
深度Q网络
过估计问题
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于UCB算法的交替深度Q网络
来源期刊 南京师范大学学报(工程技术版) 学科 工学
关键词 强化学习 深度强化学习 深度Q网络 最大置信度上界
年,卷(期) 2022,(1) 所属期刊栏目 机器学习|Machine Learning
研究方向 页码范围 24-29
页数 6页 分类号 TP18
字数 语种 中文
DOI 10.3969/j.issn.1672-1292.2022.01.004
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
深度强化学习
深度Q网络
最大置信度上界
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南京师范大学学报(工程技术版)
季刊
1672-1292
32-1684/T
大16开
南京市宁海路122号
2001
chi
出版文献量(篇)
1491
总下载数(次)
3
总被引数(次)
7734
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导