基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题.主要工作是给出了一组逼近算法和它们的收敛结果.利用广义平均算子来替代最优算子max(或min),对激励学习中的一类最重要的算法--动态规划算法--进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性.同时使用了更具一般性的风险敏感度性能评价体系,发现基于动态规划的学习算法中的一般结论在这种体系之下并不完全成立.
推荐文章
激励学习的广义平均算法及其收敛性
激励学习
广义平均
Markov
决策过程
Q-学习
基于图像内容敏感度分析数字水印算法
数字水印
图像处理
小波包
SVD奇异值分解
内容敏感度
ICSP-PSNR
一类基于有效跟踪的广义平均奖赏激励学习算法
激励学习
Markov
决策过程
平均奖赏
有效跟踪
水生植物的生态敏感度研究
生态敏感度
CAT敏感度
重金属
生态水平
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 风险敏感度激励学习的广义平均算法
来源期刊 应用数学和力学 学科 工学
关键词 激励学习 风险敏感度 广义平均 算法 收敛性
年,卷(期) 2007,(3) 所属期刊栏目
研究方向 页码范围 369-378
页数 10页 分类号 O23|TP182
字数 7864字 语种 中文
DOI 10.3321/j.issn:1000-0887.2007.03.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 殷苌茗 长沙理工大学计算机与通信工程学院 17 95 6.0 9.0
3 王汉兴 上海大学理学院 31 396 9.0 19.0
4 赵飞 上海大学理学院 12 71 4.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (3)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(3)
  • 参考文献(1)
  • 二级参考文献(2)
1992(3)
  • 参考文献(1)
  • 二级参考文献(2)
1996(3)
  • 参考文献(1)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(6)
  • 参考文献(0)
  • 二级参考文献(6)
2002(2)
  • 参考文献(2)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
激励学习
风险敏感度
广义平均
算法
收敛性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
应用数学和力学
月刊
1000-0887
50-1060/O3
16开
重庆交通大学90号信箱
78-21
1980
chi
出版文献量(篇)
3740
总下载数(次)
2
总被引数(次)
22232
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导