基于递推最小二乘法的多步时序差分学习算法

doi:10.3778/j.issn.1002-8331.2010.08.015

计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (8): 52-55.DOI: 10.3778/j.issn.1002-8331.2010.08.015

基于递推最小二乘法的多步时序差分学习算法

陈学松，杨宜民

1.广东工业大学应用数学学院，广州 510006
2.广东工业大学自动化学院，广州 510006

收稿日期:2009-09-22 修回日期:2009-11-18 出版日期:2010-03-11 发布日期:2010-03-11
通讯作者: 陈学松

Multi-step temporal difference learning algorithm based on recursive least-squares method

CHEN Xue-song，YANG Yi-min

1.Faculty of Applied Mathematics，Guangdong University of Technology，Guangzhou 510006，China
2.Faculty of Automation，Guangdong University of Technology，Guangzhou 510006，China

Received:2009-09-22 Revised:2009-11-18 Online:2010-03-11 Published:2010-03-11
Contact: CHEN Xue-song

摘要/Abstract

摘要： 强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差，提出了基于递推最小二乘法的多步时序差分学习算法（RLS-TD（λ））。证明了在满足一定条件下，该算法的权值将以概率1收敛到唯一解，并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明，与RLS-TD（0）算法相比，该算法能加快学习过程的收敛，与传统的TD（λ）算法相比，该算法减少了值函数估计误差，从而提高了精度。

Abstract: Reinforcement learning is one of most important machine learning methods.In order to solve the problem of slow convergence speed and the error of value function in reinforcement learning systems，a multi-step Temporal Difference（TD（λ）） learning algorithm using Recursive Least-Squares（RSL） methods（RLS-TD（λ）） is proposed.The proposed algorithm is based on RLS-TD（0），its convergence is proved，and its formula of error estimation is obtained.The experiment on maze problem demons-
trates that the algorithm can speed up the convergence of the learning process compared with RLS-TD（0），and improve the learning precision compared with TD（λ）.

中图分类号:

TP18

陈学松，杨宜民. 基于递推最小二乘法的多步时序差分学习算法[J]. 计算机工程与应用, 2010, 46(8): 52-55.

CHEN Xue-song，YANG Yi-min. Multi-step temporal difference learning algorithm based on recursive least-squares method[J]. Computer Engineering and Applications, 2010, 46(8): 52-55.

[1]	闫林，张新明，何健仓，李富有. 粗糙集、商空间及概念格中粒的统一描述[J]. 计算机工程与应用, 2010, 46(9): 38-41.
[2]	汪红林^1，2，王红玲^1，2，周国栋^1，2. 语义分析中谓词标识的特征工程[J]. 计算机工程与应用, 2010, 46(9): 134-137.
[3]	张锐^1，2，张涛³，高辉⁴. RQEA-SVR在交通流预测中的应用[J]. 计算机工程与应用, 2010, 46(9): 241-245.
[4]	郝武伟¹，曾建潮². 基于聚类分析的随机微粒群算法[J]. 计算机工程与应用, 2010, 46(8): 40-44.
[5]	李朝鹏^1，2，成运¹，李肯立²，周旭³. 哈密尔顿回路问题的DNA表面计算模型[J]. 计算机工程与应用, 2010, 46(8): 48-51.
[6]	姚雄武，郑金华，李晶，文诗华. 遗传算法和单体型组装加权最小字符翻转问题[J]. 计算机工程与应用, 2010, 46(8): 217-220.
[7]	戴宏亮^1，2. 小波支持向量回归在瓦斯涌出量预测中的应用[J]. 计算机工程与应用, 2010, 46(7): 15-17.
[8]	马建敏¹，朱朝晖²，张文修³. 相容关系下集值信息系统的粗糙熵[J]. 计算机工程与应用, 2010, 46(7): 29-31.
[9]	王加阳¹，杜库¹，胡沛¹，高灿². 基于非对称相似差别矩阵知识约简[J]. 计算机工程与应用, 2010, 46(7): 44-45.
[10]	朱庆生，钟洵，杨鹏. NJW在离群数据挖掘中的应用研究[J]. 计算机工程与应用, 2010, 46(7): 128-130.
[11]	唐少先. 数据挖掘中粗糙集边界的处理方法[J]. 计算机工程与应用, 2010, 46(7): 131-133.
[12]	徐红升，张瑞玲. ART与概念相似在电子商务推荐系统中的应用[J]. 计算机工程与应用, 2010, 46(7): 213-217.
[13]	焦尚彬，刘丁. 博弈树置换表启发式算法研究[J]. 计算机工程与应用, 2010, 46(6): 42-45.
[14]	田生文，王伊蕾，李阿丽. 一种应用复杂网络特征的K-means初始化方法[J]. 计算机工程与应用, 2010, 46(6): 127-129.
[15]	黄信¹，陶华¹，钟卫军². 基于混合粒子群算法的二维导体柱目标识别[J]. 计算机工程与应用, 2010, 46(6): 201-203.

基于递推最小二乘法的多步时序差分学习算法

Multi-step temporal difference learning algorithm based on recursive least-squares method

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics