基于内部结构MPOMDP模型的策略梯度学习算法

doi:10.3778/j.issn.1002-8331.2009.07.007

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (7): 20-23.DOI: 10.3778/j.issn.1002-8331.2009.07.007

基于内部结构MPOMDP模型的策略梯度学习算法

张润梅^1,2,王浩¹,张佑生¹,姚宏亮¹,方长胜¹

1.合肥工业大学计算机与科学技术系，合肥 230009
2.安徽建筑工业学院电子与信息工程学院，合肥 230022

收稿日期:2008-10-22 修回日期:2008-12-04 出版日期:2009-03-01 发布日期:2009-03-01
通讯作者: 张润梅

Policy gradient algorithm based on internal structural MPOMDP model

ZHANG Run-mei^1,2,WANG Hao¹,ZHANG You-sheng¹,YAO Hong-liang¹,FANG Chang-sheng¹

1.Department of Computer Science and Technology，Hefei University of Technology，Hefei 230009，China
2.School of Electronics and Information Engineering，Anhui University of Architecture，Hefei 230022，China

Received:2008-10-22 Revised:2008-12-04 Online:2009-03-01 Published:2009-03-01
Contact: ZHANG Run-mei

摘要/Abstract

摘要： 为了提高MPOMDP模型的知识表示能力和推理效率，提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化，并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式，以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中，给出基于内部状态的多Agent策略梯度算法（MIS-GPOMDP），来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率，且算法是收敛的。

关键词: 马尔可夫决策过程, 强化学习, MPOMDP模型, 策略梯度算法

Abstract: For the improvement of knowledge representation ability and reasoning efficiency of MPOMDP model，a new kind of MPOMDP model is proposed based on internal structure of Agent.The internal structure and its evolvement of Agent are presented to improve the reasoning efficiency of the model by means the joint probability distribution of system as the local factorization forms of internal variables set.A MIS-GPOMDP algorithm is given by expanding GPI-POMDP to internal structural MPOMDP model to solve the internal structural MPOMDP model.The results of the experiment show that the high efficiency of the reasoning and convergence are found in MIS-GPOMDP algorithm.

Key words: arkov Decision Processes（MDP）, reinforcement learning, MPOMDP model, policy gradient algorithm

张润梅^1,2,王浩¹,张佑生¹,姚宏亮¹,方长胜¹. 基于内部结构MPOMDP模型的策略梯度学习算法[J]. 计算机工程与应用, 2009, 45(7): 20-23.

ZHANG Run-mei^1,2,WANG Hao¹,ZHANG You-sheng¹,YAO Hong-liang¹,FANG Chang-sheng¹. Policy gradient algorithm based on internal structural MPOMDP model[J]. Computer Engineering and Applications, 2009, 45(7): 20-23.

[1]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[2]	周友行，赵晗妘，刘汉江，李昱泽，肖雨琴. 采用DDPG的双足机器人自学习步态规划方法[J]. 计算机工程与应用, 2021, 57(6): 254-259.
[3]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[4]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[5]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[6]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[7]	王军，曹雷，陈希亮，赖俊，章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
[8]	成怡，郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262.
[9]	况立群，李思远，冯利，韩燮，徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278.
[10]	孔松涛，刘池池，史勇，谢义，王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59.
[11]	李浩，宁浩宇，康雁，梁文韬，霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176.
[12]	宋浩楠，赵刚，王兴芬. 融合知识表示和深度强化学习的知识推理方法[J]. 计算机工程与应用, 2021, 57(19): 189-197.
[13]	张荣霞，武长旭，孙同超，赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56.
[14]	杨薛钰，陈建平，傅启明，陆悠，吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111.
[15]	王科银，石振，杨正才，杨亚会，王思山. 改进强化学习算法应用于移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(18): 270-274.

基于内部结构MPOMDP模型的策略梯度学习算法

Policy gradient algorithm based on internal structural MPOMDP model

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics