基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
推荐文章
基于PSO的新算法在库存分类中的应用
粒子群(PSO)算法
ABC分类
神经网络
反向传播算法
模糊控制理论在库存货位管理中的应用
模糊控制
线性规划
库存管理
模糊理论在库存分析中的应用
模糊概念
隶属度
库存分析
需求率
基于概念格的数据挖掘方法在库存管理中的应用
库存管理
多目标优化
概念格
关联规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Q学习算法在库存控制中的应用
来源期刊 自动化学报 学科 工学
关键词 Q学习 马尔可夫决策过程 库存控制 连续状态和决策空间 探索策略
年,卷(期) 1999,(2) 所属期刊栏目 短文
研究方向 页码范围 236-241
页数 6页 分类号 TP3
字数 3336字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴沧浦 北京理工大学自动控制系 23 428 8.0 20.0
2 蒋国飞 北京理工大学自动控制系 3 303 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (49)
同被引文献  (15)
二级引证文献  (107)
1992(2)
  • 参考文献(2)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
1999(1)
  • 引证文献(1)
  • 二级引证文献(0)
2001(3)
  • 引证文献(3)
  • 二级引证文献(0)
2003(3)
  • 引证文献(2)
  • 二级引证文献(1)
2004(5)
  • 引证文献(4)
  • 二级引证文献(1)
2005(4)
  • 引证文献(4)
  • 二级引证文献(0)
2006(13)
  • 引证文献(8)
  • 二级引证文献(5)
2007(9)
  • 引证文献(4)
  • 二级引证文献(5)
2008(9)
  • 引证文献(6)
  • 二级引证文献(3)
2009(3)
  • 引证文献(0)
  • 二级引证文献(3)
2010(8)
  • 引证文献(1)
  • 二级引证文献(7)
2011(13)
  • 引证文献(5)
  • 二级引证文献(8)
2012(11)
  • 引证文献(3)
  • 二级引证文献(8)
2013(14)
  • 引证文献(1)
  • 二级引证文献(13)
2014(18)
  • 引证文献(3)
  • 二级引证文献(15)
2015(5)
  • 引证文献(0)
  • 二级引证文献(5)
2016(8)
  • 引证文献(0)
  • 二级引证文献(8)
2017(11)
  • 引证文献(2)
  • 二级引证文献(9)
2018(8)
  • 引证文献(1)
  • 二级引证文献(7)
2019(6)
  • 引证文献(0)
  • 二级引证文献(6)
2020(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
Q学习
马尔可夫决策过程
库存控制
连续状态和决策空间
探索策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
自动化学报
月刊
0254-4156
11-2109/TP
大16开
北京市海淀区中关村东路95号(北京2728信箱)
2-180
1963
chi
出版文献量(篇)
4124
总下载数(次)
26
论文1v1指导