计算机工程与应用 ›› 2026, Vol. 62 ›› Issue (8): 168-175.DOI: 10.3778/j.issn.1002-8331.2503-0329
曹青跃1,2,王雅栋1,2,王庆1,2,张羽佳1,2,阳媛1,2+
CAO Qingyue1,2, WANG Yadong1,2, WANG Qing1,2, ZHANG Yujia1,2, YANG Yuan1,2+
摘要: 针对强化学习导航存在训练效率低、稳定性差及在多死角场景中目标遮挡时导航性能差的问题,对此提出了一种融合专家经验与混合奖励机制的深度强化学习导航方法。筛选高质量专家经验并基于此预训练了行为克隆模型初始化策略,用于提高训练效率;构建了包含死角避免约束的稠密奖励函数,实现目标牵引与死角避让之间的平衡;采用标准化折扣回报方式降低不同轨迹的回报方差以提高训练稳定性。仿真实验表明所提出的方法在随机起止点测试中取得了91.3%导航成功率,在固定起止点测试中取得了95%导航成功率且耗时最短。结果表明,该方法能够灵活调整目标牵引和死角避让策略,有效提高多死角场景中机器人自主导航水平。