基于内部结构MPOMDP模型的策略梯度学习算法
张润梅 1,2,王 浩 1,张佑生 1,姚宏亮 1,方长胜 1
Policy gradient algorithm based on internal structural MPOMDP model
ZHANG Run-mei 1,2,WANG Hao 1,ZHANG You-sheng 1,YAO Hong-liang 1,FANG Chang-sheng 1
计算机工程与应用 . 2009, (7): 20 -23 .  DOI: 10.3778/j.issn.1002-8331.2009.07.007