计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (1): 191-195.DOI: 10.3778/j.issn.1002-8331.1808-0413
陈晓倩,刘瑞祥
CHEN Xiaoqian, LIU Ruixiang
摘要: 针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行。