基于最小二乘策略迭代的无人机航迹规划方法

doi:10.3778/j.issn.1002-8331.1808-0413

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (1): 191-195.DOI: 10.3778/j.issn.1002-8331.1808-0413

基于最小二乘策略迭代的无人机航迹规划方法

陈晓倩，刘瑞祥

北京联合大学智慧城市学院，北京 100101

出版日期:2020-01-01 发布日期:2020-01-02

Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle

CHEN Xiaoqian, LIU Ruixiang

College of Smart City, Beijing Union University, Beijing 100101, China

Online:2020-01-01 Published:2020-01-02

摘要/Abstract

摘要： 针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题，使用最小二乘策略迭代（Least-Squares Policy Iteration，LSPI）算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数，无需进行空间离散化，提高了航迹精度，并基于样本数据离线计算策略，直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑，有利于飞机实际飞行。

关键词: 无人机, 航迹规划, 强化学习, 最小二乘法, Q学习, 连续状态空间

Abstract: Traditional reinforcement learning methods, in which the state space is discretized, can’t ensure the trajectory accuracy in complex flight applications. The route planning method with continuous state space based on Least-Squares Policy Iteration（LSPI） is presented in this paper. The approximate function is used to represent value function to ensure the trajectory accuracy without space discretization. By offline policy generation based on samples, the policy is evaluated and improved by LSPI directly. Compared with Q-learning, simulation results show that the trajectory planned by LSPI is smoother and more conducive to the actual flight of aircraft.

Key words: unmanned aerial vehicle, route planning, reinforcement learning, least squares method, Q-learning, continuous state spaces

陈晓倩，刘瑞祥. 基于最小二乘策略迭代的无人机航迹规划方法[J]. 计算机工程与应用, 2020, 56(1): 191-195.

CHEN Xiaoqian, LIU Ruixiang. Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle[J]. Computer Engineering and Applications, 2020, 56(1): 191-195.

[1]	王博，宋丹，王洪玉. 无人机自主巡检系统的关键技术研究[J]. 计算机工程与应用, 2021, 57(9): 255-263.
[2]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[3]	侯旋，薛飞，陈涛. 无人机目标检测量子多模式识别优化算法[J]. 计算机工程与应用, 2021, 57(7): 228-236.
[4]	韩晓微，韩震，岳高峰，崔建江. 救灾无人机的优化A*航迹规划算法[J]. 计算机工程与应用, 2021, 57(6): 232-238.
[5]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[6]	张俊杰，张聪，赵涵捷. 重复利用状态值的竞争深度Q网络算法[J]. 计算机工程与应用, 2021, 57(4): 134-140.
[7]	李昱奇，刘志乾，程凝怡，王莹莹，朱春丽. 多约束条件下无人机航迹规划[J]. 计算机工程与应用, 2021, 57(4): 225-230.
[8]	於小杰，贺勇，刘盛华. 一种用于无人机室内定位的改进ORB光流算法[J]. 计算机工程与应用, 2021, 57(4): 266-271.
[9]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[10]	杨亚男，张宏鸣，李杭昊，杨江涛，全凯. 结合FCN和DenseCRF模型的无人机梯田识别方法研究[J]. 计算机工程与应用, 2021, 57(3): 222-230.
[11]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[12]	林淑彬，吴贵山，许甲云，杨文元. 多帧监督的相关滤波无人机目标跟踪[J]. 计算机工程与应用, 2021, 57(24): 152-160.
[13]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[14]	顾海艳，陈亮，王多点. 基于模型预测控制的无人机时空协同航迹规划[J]. 计算机工程与应用, 2021, 57(23): 270-279.
[15]	程帅，吴华锋，梅骁峻. 交替非负约束框架的海洋传感网协同定位[J]. 计算机工程与应用, 2021, 57(23): 129-136.

基于最小二乘策略迭代的无人机航迹规划方法

Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics