计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (23): 46-48.DOI: 10.3778/j.issn.1002-8331.2008.23.014
刘国栋,杨宝庆
LIU Guo-dong,YANG Bao-qing
摘要: 针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。