基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在机器学习中,强化学习是一个重要的研究领域.Markov决策过程(MDP)是强化学习的重要基础,在一般的Markov决策系统中,只考虑一个智能体的学习演化.但目前诸多问题中只考虑单个智能体的学习演化有一定的局限性,越来越多的应用中都涉及到多个智能体.进而引入一种带有两个智能体的联合Markov决策系统(CMDP),该系统适用于两个智能体之间合作决策的学习演化.智能体之间存在合作或博弈两种类型,文中重点研究合作类型的CMDP,在此类学习模型中,智能体交替执行行为,以社会价值作为求优准则,寻找最优策略对(π*0,π*1),共同完成目标任务.进一步给出了在联合Markov系统中寻找最优策略对的算法,其根本任务是寻找一个最优策略对(π*0,π*1),形成一个合作系统CMDP(π*0,π*1),且系统模型可以进一步扩充到多个智能体的联合决策系统.
推荐文章
一种基于Markov随机场的图像分割方法
图像分割
Markov随机场
条件迭代模型
最大后验概率
一种基于决策信息系统的求核属性算法
决策信息系统
核属性
差别矩阵
粗糙集
一种智能决策支持系统的应用
智能决策支持系统
病虫害防治
模型
专家系统
一种基于3APL的多agent合作系统
3APL
合作
变换规则
合作慎思循环
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种合作Markov决策系统
来源期刊 计算机技术与发展 学科 工学
关键词 强化学习 智能体 联合Markov决策过程 最优策略对 算法
年,卷(期) 2020,(12) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 8-14
页数 7页 分类号 TP301
字数 语种 中文
DOI 10.3969/j.issn.1673-629X.2020.12.002
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (39)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1965(1)
  • 参考文献(0)
  • 二级参考文献(1)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
智能体
联合Markov决策过程
最优策略对
算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导