计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (21): 1-13.DOI: 10.3778/j.issn.1002-8331.2104-0432
王军,曹雷,陈希亮,赖俊,章乐贵
出版日期:
2021-11-01
发布日期:
2021-11-04
WANG Jun, CAO Lei, CHEN Xiliang, LAI Jun, ZHANG Legui
Online:
2021-11-01
Published:
2021-11-04
摘要:
使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性。对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略。因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向。
王军,曹雷,陈希亮,赖俊,章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
WANG Jun, CAO Lei, CHEN Xiliang, LAI Jun, ZHANG Legui. Overview on Reinforcement Learning of Multi-agent Game[J]. Computer Engineering and Applications, 2021, 57(21): 1-13.
[1] 胡晓峰.战争科学论:认识和理解战争的科学基础与思维方法[M].北京:科学出版社,2018. |
[1] | 张鑫,张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83. |
[2] | 王晓,唐伦,贺小雨,陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76. |
[3] | 陈世明,林子朋,高彦丽,裴惠琴. 自适应耦合权重下的异质群体一致性研究[J]. 计算机工程与应用, 2021, 57(4): 231-235. |
[4] | 赖俊,魏竞毅,陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79. |
[5] | 马志豪,朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99. |
[6] | 李宝帅,叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254. |
[7] | 李振涛,冯元珍,王正新. 事件触发下多智能体系统固定时间二分一致性[J]. 计算机工程与应用, 2021, 57(21): 80-86. |
[8] | 成怡,郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262. |
[9] | 况立群,李思远,冯利,韩燮,徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278. |
[10] | 孔松涛,刘池池,史勇,谢义,王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59. |
[11] | 李浩,宁浩宇,康雁,梁文韬,霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176. |
[12] | 张荣霞,武长旭,孙同超,赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56. |
[13] | 杨薛钰,陈建平,傅启明,陆悠,吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111. |
[14] | 宋浩楠,赵刚,王兴芬. 融合知识表示和深度强化学习的知识推理方法[J]. 计算机工程与应用, 2021, 57(19): 189-197. |
[15] | 王科银,石振,杨正才,杨亚会,王思山. 改进强化学习算法应用于移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(18): 270-274. |
阅读次数 | ||||||||||||||||||||||
全文 1321
|
|
|||||||||||||||||||||
摘要 |
|
|||||||||||||||||||||