并行强化学习算法及其应用研究

doi:10.3778/j.issn.1002-8331.2009.34.008

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (34): 25-28.DOI: 10.3778/j.issn.1002-8331.2009.34.008

并行强化学习算法及其应用研究

孟伟¹，韩学东²

1.北京林业大学信息学院，北京 100083
2.中国航天科工集团 706所，北京 100854

收稿日期:2009-08-11 修回日期:2009-10-09 出版日期:2009-12-01 发布日期:2009-12-01
通讯作者: 孟伟

Parallel reinforcement learning algorithm and its application

MENG Wei¹，HAN Xue-dong²

1.Information School，Beijing Forestry University，Beijing 100083，China
2.706 Institute of China Aerospace Science and Industry Corporation，Beijing 100854，China

Received:2009-08-11 Revised:2009-10-09 Online:2009-12-01 Published:2009-12-01
Contact: MENG Wei

摘要/Abstract

摘要： 强化学习是一种重要的机器学习方法，然而在实际应用中，收敛速度缓慢是其主要不足之一。为了提高强化学习的效率，提出了一种并行强化学习算法。多个同时学习，在各自学习一定周期后，利用D-S证据利用对学习结果进行融合，然后在融合结果的基础上，各进行下一周期的学习，从而实现提高整个系统学习效率的目的。实验结果表明了该方法的可行性和有效性。

关键词: 并行算法, 强化学习, Q-学习, D-S证据理论, 路径规划

Abstract: Reinforcement learning is an important machine learning method.However，slow convergence has been one of main problem in practice.To improve the efficiency of reinforcement learning，this paper proposes parallel reinforcement learning algorithm.There are multiple agents in learning system.In a learning episode，each agent learns independently.After a learning episode，the results of all agents are fused based on D-S evidence theory so as to achieve common result，which are shared by all agents in next learning episode.Experiments show the feasibility and efficiency of the algorithm.

Key words: parallel algorithms, reinforcement learning, Q-learning, D-S evidence theory, path plan

中图分类号:

TP18

孟伟¹，韩学东². 并行强化学习算法及其应用研究[J]. 计算机工程与应用, 2009, 45(34): 25-28.

MENG Wei¹，HAN Xue-dong². Parallel reinforcement learning algorithm and its application[J]. Computer Engineering and Applications, 2009, 45(34): 25-28.

[1]	黄逸磊，夏志杰，王诣铭. 强关系型社交媒体平台不实信息传播模型研究[J]. 计算机工程与应用, 2021, 57(9): 126-133.
[2]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[3]	槐创锋，郭龙，贾雪艳，张子昊. 改进A*算法与动态窗口法的机器人动态路径规划[J]. 计算机工程与应用, 2021, 57(8): 244-248.
[4]	廖列法，李浩瀚，李帅，朱合隆，李志军. 结合Winner-Take-All的足球机器人控制策略研究[J]. 计算机工程与应用, 2021, 57(7): 136-143.
[5]	朱佳莹，高茂庭. 融合粒子群与改进蚁群算法的AUV路径规划算法[J]. 计算机工程与应用, 2021, 57(6): 267-273.
[6]	刘建宇，范平清. 基于改进的RRT*-connect算法机械臂路径规划[J]. 计算机工程与应用, 2021, 57(6): 274-278.
[7]	王迪，李彩虹，郭娜，刘国名，高腾腾. 基于模糊势场法的移动机器人局部路径规划[J]. 计算机工程与应用, 2021, 57(6): 212-218.
[8]	蒋林，方东君，雷斌，李维刚. 单目视觉移动机器人导航算法研究现状及趋势[J]. 计算机工程与应用, 2021, 57(5): 1-9.
[9]	马向华，张谦. 改进蚁群算法在机器人路径规划上的研究[J]. 计算机工程与应用, 2021, 57(5): 210-215.
[10]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[11]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[12]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[13]	杨凌耀，张爱华，张洁，宋季强. 栅格地图环境下机器人速度势实时路径规划[J]. 计算机工程与应用, 2021, 57(24): 290-295.
[14]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[15]	王琛，茅健. 基于时间窗模型的双向机器人路径规划方法[J]. 计算机工程与应用, 2021, 57(23): 287-294.

并行强化学习算法及其应用研究

Parallel reinforcement learning algorithm and its application

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics