基于平均奖赏强化学习算法的零阶分类元系统

计算机工程与应用 ›› 2016, Vol. 52 ›› Issue (21): 14-20.

基于平均奖赏强化学习算法的零阶分类元系统

臧兆祥1，2，李昭1，2，王俊英1，2，但志平1，2

1.三峡大学水电工程智能视觉监测湖北省重点实验室，湖北宜昌 443002
2.三峡大学计算机与信息学院，湖北宜昌 443002

出版日期:2016-11-01 发布日期:2016-11-17

Zeroth-level classifier system with average reward reinforcement learning

ZANG Zhaoxiang1，2, LI Zhao1，2, WANG Junying1，2, DAN Zhiping1，2

1.Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering, China Three Gorges University, Yichang, Hubei 443002, China
2.College of Computer and Information Technology, China Three Gorges University, Yichang, Hubei 443002, China

Online:2016-11-01 Published:2016-11-17

摘要/Abstract

摘要： 零阶学习分类元系统ZCS（Zeroth-level Classifier System）作为一种基于遗传的机器学习技术（Genetics-Based Machine Learning），在解决多步学习问题上，已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术，难于适应更为广泛的应用领域。基于ZCS的现有框架，提出了一种采用平均奖赏强化学习技术（R-学习算法）的分类元系统，将ZCS中的折扣奖赏强化学习方法替换为R-学习算法，从而使ZCS一方面可应用于需要优化平均奖赏的问题领域，另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示，在多步学习问题中，该系统可给出满意解，且在维持动作长链，以及克服过泛化问题方面，具有更优的特性。

关键词: 平均奖赏, 强化学习, R-学习算法, 学习分类元系统（LCS）, 零阶分类元系统（ZCS）, 多步学习问题

Abstract: As a genetics-based machine learning technique, Zeroth-level Classifier System（ZCS） has shown promise in applying to multi-step problems. However, the standard ZCS is based on a discounted reward reinforcement learning algorithm, which optimizes the discounted total reward received by an agent but is not suitable for all multi-step problems. There are some average reward reinforcement learning methods available, such as R-learning, which optimize the average reward per time step. In this paper, R-learning is used as the reinforcement learning employed by ZCS, to replace its discounted reward reinforcement learning approach. The modification results show classifier system can effectively prevent the occurrence of overgeneralization and support long action chains, and thus is able to solve large multi-step problems.

Key words: average reward, reinforcement learning, R-learning, Learning Classifier Systems（LCS）, Zeroth-level Classifier System（ZCS）, multi-step problems

臧兆祥1，2，李昭1，2，王俊英1，2，但志平1，2. 基于平均奖赏强化学习算法的零阶分类元系统[J]. 计算机工程与应用, 2016, 52(21): 14-20.

ZANG Zhaoxiang1，2, LI Zhao1，2, WANG Junying1，2, DAN Zhiping1，2. Zeroth-level classifier system with average reward reinforcement learning[J]. Computer Engineering and Applications, 2016, 52(21): 14-20.

[1]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[2]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[3]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[4]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[5]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[6]	王军，曹雷，陈希亮，赖俊，章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
[7]	成怡，郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262.
[8]	况立群，李思远，冯利，韩燮，徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278.
[9]	孔松涛，刘池池，史勇，谢义，王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59.
[10]	李浩，宁浩宇，康雁，梁文韬，霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176.
[11]	宋浩楠，赵刚，王兴芬. 融合知识表示和深度强化学习的知识推理方法[J]. 计算机工程与应用, 2021, 57(19): 189-197.
[12]	张荣霞，武长旭，孙同超，赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56.
[13]	杨薛钰，陈建平，傅启明，陆悠，吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111.
[14]	王科银，石振，杨正才，杨亚会，王思山. 改进强化学习算法应用于移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(18): 270-274.
[15]	张俊，朱庆伟，严俊杰，温波. 改进强化学习算法的UAV室内三维航迹规划[J]. 计算机工程与应用, 2021, 57(16): 175-181.