计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (12): 93-98.DOI: 10.3778/j.issn.1002-8331.2003-0423
车向北,康文倩,欧阳宇宏,杨柯涵,李剑
CHE Xiangbei, KANG Wenqian, OUYANG Yuhong, YANG Kehan, LI Jian
摘要:
针对SDN控制器中网络路由的优化问题,基于强化学习中的PPO模型设计了一种路由优化算法。该算法可以针对不同的优化目标调整奖励函数来动态更新路由策略,并且不依赖于任何特定的网络状态,具有较强的泛化性能。由于采用了强化学习中策略方法,该算法对路由策略的控制相比各类基于Q-learning的算法更为精细。基于Omnet++仿真软件通过实验评估了该算法的性能,相比传统最短路径路由算法,路由优化算法在Sprint结构网络上的平均延迟和端到端最大延迟分别降低了29.3%和17.4%,吞吐率提高了31.77%,实验结果说明了基于PPO的SDN路由控制算法不仅具有良好的收敛性,而且相比静态最短路径路由算法与基于Q-learning的QAR路由算法具有更好的性能和稳定性。