计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (19): 39-40.
胡明辉,殷苌茗,李立云
HU Ming-hui,YIN Chang-ming,LI Li-yun
摘要: 提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法是有效的。