计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (16): 60-62.DOI: 10.3778/j.issn.1002-8331.2009.16.016
孟祥萍1,王圣镔2,王欣欣2
MENG Xiang-ping1,WANG Sheng-bin2,WANG Xin-xin2
摘要: 提出了一种新颖的基于Q-学习、蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其学习速度骤然下降。另外,Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。把蚁群算法、轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。