基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.
推荐文章
深度逆向强化学习研究综述
深度学习
强化学习
深度逆向强化学习
面向智能通信的深度强化学习方法
深度强化学习
异构网络
智能通信
智能网络管理
基于深度强化学习的自动驾驶策略学习方法
深度强化学习
自动驾驶
聚类
神经网络
解决深度探索问题的贝叶斯深度强化学习算法
深度强化学习
探索与利用
贝叶斯定理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于双深度网络的安全深度强化学习方法
来源期刊 计算机学报 学科 工学
关键词 强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
年,卷(期) 2019,(8) 所属期刊栏目 大数据
研究方向 页码范围 1812-1826
页数 15页 分类号 TP18
字数 12539字 语种 中文
DOI 10.11897/SP.J.1016.2019.01812
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 伏玉琛 苏州大学计算机科学与技术学院 35 201 8.0 11.0
3 朱斐 苏州大学计算机科学与技术学院 44 168 7.0 11.0
15 吴文 苏州大学计算机科学与技术学院 3 11 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (104)
参考文献  (13)
节点文献
引证文献  (4)
同被引文献  (21)
二级引证文献  (0)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(5)
  • 参考文献(4)
  • 二级参考文献(1)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(5)
  • 参考文献(2)
  • 二级参考文献(3)
2015(6)
  • 参考文献(3)
  • 二级参考文献(3)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
强化学习
深度强化学习
深度Q网络
安全深度强化学习
安全人工智能
经验回放
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
论文1v1指导