交互协调强化学习下的城市交通信号配时决策

doi:10.3778/j.issn.1002-8331.1708-0308

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (11): 265-270.DOI: 10.3778/j.issn.1002-8331.1708-0308

• 工程与应用 • 上一篇

交互协调强化学习下的城市交通信号配时决策

夏新海

广州航海学院港航管理学院，广州 510725

出版日期:2018-06-01 发布日期:2018-06-14

Research on urban traffic signal timing decision based on reinforcement learning with interaction coordination mechanism

XIA Xinhai

School of Port and Shipping Management, Guangzhou Maritime University, Guangzhou 510725, China

Online:2018-06-01 Published:2018-06-14

摘要/Abstract

摘要： 针对应用传统强化学习进行城市自适应交通信号配时决策时存在维数灾难和缺乏协调机制等问题，提出引入交互协调机制的强化学习算法。以车均延误为性能指标设计了针对城市交通信号配时决策的独立Q-强化学习算法。在此基础上，通过引入直接交互机制对独立强化学习算法进行了延伸，即相邻交叉口交通信号控制agent间直接交换配时动作和交互点值。通过仿真实验分析表明，引入交互协调机制的强化学习的控制效果明显优于独立强化学习算法，协调更有效，并且其学习算法具有较好的收敛性能，交互点值趋向稳定。

关键词: 交通信号, 交叉口, 协调机制, 强化学习

Abstract: Aiming at the problem of dimensionality curse and the lack of coordination mechanism in the urban adaptive traffic signal timing decision using traditional reinforcement learning, a reinforcement learning algorithm with interaction coordination mechanism is proposed. An independent Q-reinforcement learning algorithm for the urban traffic signal timing decision is designed with the vehicle delay as the performance index. On this basis, the independent Q-reinforcement learning algorithm is extended by introducing interaction coordination mechanism. That is to say, the intersection traffic signal control agent directly exchanges actions and interaction values with the adjacent ones. Simulation results show that the proposed method substantially outperforms the independent reinforcement learning algorithm with more efficient coordination and better convergence performance.

Key words: traffic signal, intersection, coordination mechanism, reinforcement learning

夏新海. 交互协调强化学习下的城市交通信号配时决策[J]. 计算机工程与应用, 2018, 54(11): 265-270.

XIA Xinhai. Research on urban traffic signal timing decision based on reinforcement learning with interaction coordination mechanism[J]. Computer Engineering and Applications, 2018, 54(11): 265-270.

[1]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[2]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[3]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[4]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[5]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[6]	王军，曹雷，陈希亮，赖俊，章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
[7]	成怡，郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262.
[8]	况立群，李思远，冯利，韩燮，徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278.
[9]	孔松涛，刘池池，史勇，谢义，王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59.
[10]	李浩，宁浩宇，康雁，梁文韬，霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176.
[11]	张荣霞，武长旭，孙同超，赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56.
[12]	杨薛钰，陈建平，傅启明，陆悠，吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111.
[13]	宋浩楠，赵刚，王兴芬. 融合知识表示和深度强化学习的知识推理方法[J]. 计算机工程与应用, 2021, 57(19): 189-197.
[14]	王科银，石振，杨正才，杨亚会，王思山. 改进强化学习算法应用于移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(18): 270-274.
[15]	徐琛，董德存，欧冬秀. 交叉口多时段控制输入源优化研究[J]. 计算机工程与应用, 2021, 57(17): 230-236.

交互协调强化学习下的城市交通信号配时决策

Research on urban traffic signal timing decision based on reinforcement learning with interaction coordination mechanism

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics