分层强化学习研究进展

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (13): 1-5.

分层强化学习研究进展

程晓北,沈晶,刘海波,顾国昌,张国印

哈尔滨工程大学计算机科学与技术学院，哈尔滨 150001

收稿日期:2008-04-10 修回日期:2008-04-15 出版日期:2008-05-01 发布日期:2008-05-01
通讯作者: 程晓北

Advances in hierarchical reinforcement learning

CHENG Xiao-bei,SHEN Jing,LIU Hai-bo,GU Guo-chang,ZHANG Guo-yin

School of Computer Science and Technology，Harbin Engineering University，Harbin 150001，China

Received:2008-04-10 Revised:2008-04-15 Online:2008-05-01 Published:2008-05-01
Contact: CHENG Xiao-bei

摘要/Abstract

摘要： 强化学习通过试错与环境交互获得策略的改进，其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被维数灾难所困扰。近年来，分层强化学习方法在解决维数灾问题中取得了显著成果，并逐渐开始向多智能体系统推广，论文归纳分析这一领域目前的研究进展，并对迫切需要解决的一些问题和进一步的发展趋势作出探讨和展望。

关键词: 分层强化学习, 多智能体系统, 维数灾难

Abstract: Reinforcement learning is an approach that an agent can learn its behaviors through trial-and-error interaction with a dynamic environment.It has been an important branch of machine learning for its self-learning and online learning capabilities. But reinforcement learning is bedeviled by the curse of dimensionality.Recently，Hierarchical Reinforcement Learning（HRL） has made great progresses to combat the curse of dimensionality.And the HRL approaches have been being applied to multi-agent system.The recent advances in HRL are surveyed in this paper.Then，some open problems are discussed.Finally，the HRL prospects are shown.

Key words: Hierarchical Reinforcement Learning, multi-agent system, curse of dimensionality

程晓北,沈晶,刘海波,顾国昌,张国印. 分层强化学习研究进展[J]. 计算机工程与应用, 2008, 44(13): 1-5.

CHENG Xiao-bei,SHEN Jing,LIU Hai-bo,GU Guo-chang,ZHANG Guo-yin. Advances in hierarchical reinforcement learning[J]. Computer Engineering and Applications, 2008, 44(13): 1-5.

[1]	陈世明，林子朋，高彦丽，裴惠琴. 自适应耦合权重下的异质群体一致性研究[J]. 计算机工程与应用, 2021, 57(4): 231-235.
[2]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[3]	李振涛，冯元珍，王正新. 事件触发下多智能体系统固定时间二分一致性[J]. 计算机工程与应用, 2021, 57(21): 80-86.
[4]	孙彧，曹雷，陈希亮，徐志雄，赖俊. 多智能体深度强化学习研究综述[J]. 计算机工程与应用, 2020, 56(5): 13-24.
[5]	陈良康，过榴晓，杨永清. 带有智能领导者的网络系统分群投影一致性[J]. 计算机工程与应用, 2020, 56(19): 42-47.
[6]	王梦娇，尹翔，黄宁馨. 基于迁移学习的多任务分配算法[J]. 计算机工程与应用, 2020, 56(13): 150-155.
[7]	冯元珍，刘敏. 具有时滞的混合阶多智能体系统的组一致性[J]. 计算机工程与应用, 2019, 55(12): 67-71.
[8]	李杨，徐峰，谢光强，黄向龙. 多智能体技术发展及其应用综述[J]. 计算机工程与应用, 2018, 54(9): 13-21.
[9]	梁嘉琪，卜旭辉，刘建. 数据丢失下多智能体系统迭代学习跟踪控制[J]. 计算机工程与应用, 2018, 54(20): 42-47.
[10]	邱丽，过榴晓. 事件触发下随机非确定线性多智能体的指数同步[J]. 计算机工程与应用, 2018, 54(17): 141-145.
[11]	黄红伟1，黄天民2. 事件触发机制下的多智能体领导跟随一致性[J]. 计算机工程与应用, 2017, 53(6): 29-33.
[12]	李昆1，郑柏超1，2，钟露1. 不确定多智能体系统的鲁棒量化一致性研究[J]. 计算机工程与应用, 2017, 53(24): 48-54.
[13]	王世丽，金英花，吴晨. 带通信时滞的多智能体系统的群集运动[J]. 计算机工程与应用, 2017, 53(23): 24-28.
[14]	赵蕊，朱美玲，徐勇. 多智能体系统自适应跟踪控制[J]. 计算机工程与应用, 2017, 53(18): 39-43.
[15]	程玉娟，俞辉. 多智能体切换网络自适应组一致性[J]. 计算机工程与应用, 2017, 53(11): 50-55.