基于联合强化学习的RoboCup-2D传球策略

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (23): 212-216.

基于联合强化学习的RoboCup-2D传球策略

常晓军

西安理工大学自动化与信息工程学院，西安 710048

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-08-11 发布日期:2011-08-11

RoboCup-2D passing strategy based on joint reinforcement learning

CHANG Xiaojun

Faculty of Automation and Information Engineering，Xi’an University of Technology，Xi’an 710048，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-08-11 Published:2011-08-11

摘要/Abstract

摘要： 在传统Q学习算法基础上引入多智能体系统，提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习，并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量，采用联合学习得到的最优状态作为多智能体协作的最优动作组，有效解决了仿真中各智能体之间的传球策略及其协作问题，仿真和实验结果证明了算法的有效性和可靠性。

关键词: 多智能体系统, 联合Q学习算法, RoboCup-2D, 球场状态分解法

Abstract: A combined Q-learning algorithm of Multi-Agent System（MAS） is proposed on the basis of the traditional Q-learning algorithm.Multi-agent learning is performed under the same evaluation function.While learning results of all the agents which participate in collaboration are taken into account during the learning process.The pitch components of state are reduced by introducing a state of decomposition method in RoboCup-2D soccer simulation game.The optimal state obtained by joint learning is adopted as the optimal action group of collaborative multi-agent.The problems of passing strategy and cooperation between all agents in the simulation are effective solved.The results of simulation and experiments demonstrate the validity and reliability of the proposed algorithm.

Key words: multi-agent system, joint Q-learning algorithm, RoboCup-2D, state of decomposition stadium in football field

常晓军. 基于联合强化学习的RoboCup-2D传球策略[J]. 计算机工程与应用, 2011, 47(23): 212-216.

CHANG Xiaojun. RoboCup-2D passing strategy based on joint reinforcement learning[J]. Computer Engineering and Applications, 2011, 47(23): 212-216.

[1]	陈世明，林子朋，高彦丽，裴惠琴. 自适应耦合权重下的异质群体一致性研究[J]. 计算机工程与应用, 2021, 57(4): 231-235.
[2]	李振涛，冯元珍，王正新. 事件触发下多智能体系统固定时间二分一致性[J]. 计算机工程与应用, 2021, 57(21): 80-86.
[3]	孙彧，曹雷，陈希亮，徐志雄，赖俊. 多智能体深度强化学习研究综述[J]. 计算机工程与应用, 2020, 56(5): 13-24.
[4]	陈良康，过榴晓，杨永清. 带有智能领导者的网络系统分群投影一致性[J]. 计算机工程与应用, 2020, 56(19): 42-47.
[5]	王梦娇，尹翔，黄宁馨. 基于迁移学习的多任务分配算法[J]. 计算机工程与应用, 2020, 56(13): 150-155.
[6]	冯元珍，刘敏. 具有时滞的混合阶多智能体系统的组一致性[J]. 计算机工程与应用, 2019, 55(12): 67-71.
[7]	李杨，徐峰，谢光强，黄向龙. 多智能体技术发展及其应用综述[J]. 计算机工程与应用, 2018, 54(9): 13-21.
[8]	梁嘉琪，卜旭辉，刘建. 数据丢失下多智能体系统迭代学习跟踪控制[J]. 计算机工程与应用, 2018, 54(20): 42-47.
[9]	邱丽，过榴晓. 事件触发下随机非确定线性多智能体的指数同步[J]. 计算机工程与应用, 2018, 54(17): 141-145.
[10]	黄红伟1，黄天民2. 事件触发机制下的多智能体领导跟随一致性[J]. 计算机工程与应用, 2017, 53(6): 29-33.
[11]	李昆1，郑柏超1，2，钟露1. 不确定多智能体系统的鲁棒量化一致性研究[J]. 计算机工程与应用, 2017, 53(24): 48-54.
[12]	王世丽，金英花，吴晨. 带通信时滞的多智能体系统的群集运动[J]. 计算机工程与应用, 2017, 53(23): 24-28.
[13]	赵蕊，朱美玲，徐勇. 多智能体系统自适应跟踪控制[J]. 计算机工程与应用, 2017, 53(18): 39-43.
[14]	程玉娟，俞辉. 多智能体切换网络自适应组一致性[J]. 计算机工程与应用, 2017, 53(11): 50-55.
[15]	刘丹，胡爱花，邵浩宇. 自适应事件触发控制的多智能体系统一致性[J]. 计算机工程与应用, 2017, 53(1): 44-48.