计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (13): 15-19.DOI: 10.3778/j.issn.1002-8331.1812-0321
董 瑶1,2,葛莹莹1,2,郭鸿湧1,3,董永峰1,2,杨 琛1,2
DONG Yao1,2, GE Yingying1,2, GUO Hongyong1,3, DONG Yongfeng1,2, YANG Chen1,2
摘要: 为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法(Improved Dueling Deep Double [Q]-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。