基于内部结构MPOMDP模型的策略梯度学习算法
张润梅
1,2,王 浩
1,张佑生
1,姚宏亮
1,方长胜
1
Policy gradient algorithm based on internal structural MPOMDP model
ZHANG Run-mei
1,2,WANG Hao
1,ZHANG You-sheng
1,YAO Hong-liang
1,FANG Chang-sheng
1
计算机工程与应用
.
2009, (7): 20
-23
.
DOI: 10.3778/j.issn.1002-8331.2009.07.007