计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (26): 62-64.DOI: 10.3778/j.issn.1002-8331.2008.26.018
谭万禹1,王建忠2,孟祥萍1
TAN Wan-yu1,WANG Jian-zhong2,MENG Xiang-ping1
摘要: 针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论的多Agent协作学习算法。新算法借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅表示行为选择概率,并用量子搜索算法来加速多Agent的学习。相应的仿真实验结果显示新算法的有效性。