计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (10): 264-270.DOI: 10.3778/j.issn.1002-8331.1806-0324
• 工程与应用 • 上一篇
张 斌1,何 明1,2,陈希亮1,吴春晓1,刘 斌1,周 波1
ZHANG Bin1, HE Ming1,2, CHEN Xiliang1, WU Chunxiao1, LIU Bin1, ZHOU Bo1
摘要: 深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。