原文服务方: 计算机应用研究       
摘要:
研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代 (KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究.分别利用值函数非平滑的组合优化问题--旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析.分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优.通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素.
推荐文章
紧密纺纱线性能测试及对比分析
紧密纺
环锭纺
条干
毛羽
测试
分析
卡其织物悬垂性测试与对比分析
卡其织物
外观
悬垂性
悬垂系数
活泼率
地铁车辆地板结构防火性能对比分析
地铁车辆
地板
防火性能
遗传算法和粒子群优化算法的性能对比分析
遗传算法
粒子群优化算法
单峰
多峰
性能对比
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 增强学习算法的性能测试与对比分析
来源期刊 计算机应用研究 学科
关键词 增强学习 值函数 近似策略迭代 平滑性
年,卷(期) 2010,(10) 所属期刊栏目
研究方向 页码范围 3662-3665,3669
页数 分类号 TP309
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2010.10.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李兆斌 1 4 1.0 1.0
2 徐昕 2 20 2.0 2.0
3 吴军 1 4 1.0 1.0
4 连传强 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (8)
节点文献
引证文献  (4)
同被引文献  (7)
二级引证文献  (1)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
增强学习
值函数
近似策略迭代
平滑性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导