基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法--DFP-OPTD,并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间,第二层模糊划分作用于动作空间,并结合两层模糊划分计算出Q值函数。根据所得的Q值函数,使用梯度下降方法更新模糊规则中的后件参数。将DFP-OPTD应用于经典强化学习问题中,实验结果表明,该算法有较好的收敛性能,且可以求解连续行为策略。
推荐文章
两层异构网络中基于分簇DIA的干扰消除算法
两层异构网络
干扰对齐
分布式干扰对齐
分簇
基于改进时间差分的视觉/惯性组合导航研究
惯性导航
机器视觉
零速校准
卡尔曼滤波
组合导航
时间差分
一种基于时间差分算法的神经网络预测控制系统
时间差分法
BP算法
神经网络预测控制
单值预测控制算法
基于时间差分和局部加权偏最小二乘算法的过程自适应软测量建模
时间差分模型
局部加权偏最小二乘算法
即时学习
软测量建模
质量预测
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于两层模糊划分的时间差分算法
来源期刊 通信学报 学科 工学
关键词 强化学习 在策略 梯度下降 两层模糊划分 连续行为策略
年,卷(期) 2013,(10) 所属期刊栏目 学 术 论 文
研究方向 页码范围 92-99
页数 8页 分类号 TP181
字数 6945字 语种 中文
DOI 10.3969/j.issn.1000-436x.2013.10.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘全 苏州大学计算机科学与技术学院 99 1053 16.0 29.0
5 傅启明 苏州大学计算机科学与技术学院 23 360 10.0 18.0
6 周鑫 苏州大学计算机科学与技术学院 2 12 2.0 2.0
7 孙洪坤 苏州大学计算机科学与技术学院 6 42 4.0 6.0
8 穆翔 苏州大学计算机科学与技术学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (8)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
在策略
梯度下降
两层模糊划分
连续行为策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信学报
月刊
1000-436X
11-2102/TN
大16开
北京市丰台区成寿路11号邮电出版大厦8层
2-676
1980
chi
出版文献量(篇)
6235
总下载数(次)
17
总被引数(次)
85479
论文1v1指导