计算机工程与应用 ›› 2016, Vol. 52 ›› Issue (21): 14-20.
臧兆祥1,2,李 昭1,2,王俊英1,2,但志平1,2
ZANG Zhaoxiang1,2, LI Zhao1,2, WANG Junying1,2, DAN Zhiping1,2
摘要: 零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(Genetics-Based Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。