基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynamic programming,NDP)优化方法.研究结果适用于半Markov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.
推荐文章
基于统一强度理论的复合型裂纹断裂准则
复合型裂纹
统一强度理论
断裂评定
平均准则问题的即时差分学习算法
即时差分学习,强化学习,动态规划,Monte Carlo方法
平均奖赏MDP的在策略无模型激励学习算法
激励学习
Markov决策过程
平均奖赏
折扣奖赏
动态规划
基于折扣优化的区间值信度结构归一化方法
证据理论
区间值信度结构
信息融合
归一化
欧式距离
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 平均和折扣准则MDP基于TD(0)学习的统一NDP方法
来源期刊 控制理论与应用 学科 工学
关键词 Markov决策过程 性能势 TD(0)学习 神经元动态规划
年,卷(期) 2006,(2) 所属期刊栏目 短文
研究方向 页码范围 292-296
页数 5页 分类号 TP202
字数 5588字 语种 中文
DOI 10.3969/j.issn.1000-8152.2006.02.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 唐昊 合肥工业大学计算机与信息学院 45 207 8.0 10.0
2 周雷 合肥工业大学计算机与信息学院 22 92 6.0 8.0
3 袁继彬 合肥工业大学计算机与信息学院 1 18 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (11)
参考文献  (8)
节点文献
引证文献  (18)
同被引文献  (4)
二级引证文献  (27)
1997(3)
  • 参考文献(1)
  • 二级参考文献(2)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(4)
  • 参考文献(1)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(5)
  • 参考文献(3)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2006(4)
  • 引证文献(4)
  • 二级引证文献(0)
2007(8)
  • 引证文献(5)
  • 二级引证文献(3)
2008(3)
  • 引证文献(2)
  • 二级引证文献(1)
2009(3)
  • 引证文献(3)
  • 二级引证文献(0)
2010(4)
  • 引证文献(1)
  • 二级引证文献(3)
2011(3)
  • 引证文献(2)
  • 二级引证文献(1)
2012(4)
  • 引证文献(0)
  • 二级引证文献(4)
2013(1)
  • 引证文献(0)
  • 二级引证文献(1)
2014(3)
  • 引证文献(0)
  • 二级引证文献(3)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(6)
  • 引证文献(1)
  • 二级引证文献(5)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Markov决策过程
性能势
TD(0)学习
神经元动态规划
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
控制理论与应用
月刊
1000-8152
44-1240/TP
大16开
广州市五山华南理工大学内
46-11
1984
chi
出版文献量(篇)
4979
总下载数(次)
16
总被引数(次)
72515
相关基金
安徽省自然科学基金
英文译名:Anhui Provincial Natural Science Foundation
官方网址:http://www.ahinfo.gov.cn/zrkxjj/index.htm
项目类型:安徽省优秀青年科技基金
学科类型:
论文1v1指导