计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (7): 266-275.DOI: 10.3778/j.issn.1002-8331.2009-0518
张鑫辰,张军,刘元盛,路铭,谢龙洋
ZHANG Xinchen, ZHANG Jun, LIU Yuansheng, LU Ming, XIE Longyang
摘要: 深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。 针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数更新频率不同的神经网络中,以此来减少经验样本之间的相关性,然后将隐藏层输出的无人车状态信息同时输入到状态价值函数(state value function)流和动作优势函数(action advantage function)流中,从而更准确地得到模型中每个动作对应的[Q]值,再采用优先级经验回放(prioritized experience replay,PER)的方式从经验回放单元中抽取经验样本,增加经验回放单元中重要样本的利用率。在NGSIM数据集搭建的实验场景中进行模型的训练和测试,实验结果表明,改进的深度Q网络模型可以使无人车更好地理解环境中的状态变化,提高了换道决策成功率的同时网络的收敛速度也得到提升。