计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (28): 29-31.DOI: 10.3778/j.issn.1002-8331.2008.28.009
胡晓辉
HU Xiao-hui
摘要: 强化学习是一种重要的无监督机器学习技术,它能够利用不确定的环境下的奖赏发现最优的行为序列,实现动态环境下的在线学习,被广泛地应用到Agent系统当中。应用强化学习算法的难点之一就是如何平衡强化学习当中探索和利用之间的关系,即如何进行动作选择。结合Q学习在ε-greedy策略基础上引入计数器,从而使动作选择时的参数ε能够分阶段进行调整,从而更好地平衡探索和利用间的关系。通过对方格世界的实验仿真,证明了方法的有效性。