计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (15): 7-11.
陈丽娜,黄宏斌,邓 苏
CHEN Lina, HUANG Hongbin, DENG Su
摘要: 主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。