基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
强化学习的经验回放方法在减少状态序列间相关性的同时提高了数据的利用效率,但目前只能用于确定性的状态环境.为在随机状态环境下充分利用经验回放,且能够保持原有的状态分布,提出一种基于树的经验存储结构来存储探索过程中的状态转移概率,并根据该存储方式,提出基于期望经验回放的Q学习算法.该方法在保证算法复杂度较低的情况下,可实现对环境状态转移的无偏估计,减少Q学习算法的过估计问题.在经典的机器人随机行走问题中进行实验,结果证明,相比于基于均匀回放方法和优先回放的经验回放方法,基于期望经验回放Q学习算法的收敛速度约提高了50%.
推荐文章
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
基于预测状态表示的Q学习算法
不确定环境规划
预测状态表示
Q学习算法
奶酪迷宫
基于排序优先经验回放的竞争深度Q网络学习
强化学习
深度Q网络
竞争网络
排序优先经验回放
未知杂波状态下基于箱粒子滤波的PHD算法
多目标跟踪
概率假设密度
区间分析
箱粒子
未知杂波
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 随机状态下基于期望经验回放的Q学习算法
来源期刊 深圳大学学报(理工版) 学科 工学
关键词 人工智能 机器学习 强化学习 经验回放 Q学习算法 随机环境 收敛 过估计
年,卷(期) 2020,(2) 所属期刊栏目 电子与信息科学
研究方向 页码范围 202-207
页数 6页 分类号 TP181
字数 5071字 语种 中文
DOI 10.3724/SP.J.1249.2020.02202
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张峰 河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院 2 3 1.0 1.0
2 钱辉 河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院 1 0 0.0 0.0
3 董春茹 河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院 1 0 0.0 0.0
4 花强 河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
人工智能
机器学习
强化学习
经验回放
Q学习算法
随机环境
收敛
过估计
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
深圳大学学报(理工版)
双月刊
1000-2618
44-1401/N
大16开
深圳市南山区深圳大学行政楼419室
46-206
1984
chi
出版文献量(篇)
1946
总下载数(次)
10
总被引数(次)
10984
论文1v1指导