计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (3): 143-150.DOI: 10.3778/j.issn.1002-8331.2008-0179
徐博,周建国,吴静,罗威
XU Bo, ZHOU Jianguo, WU Jing, LUO Wei
摘要: 针对于数据中心网络不均衡的流量分布,和在使用固定功能交换机的软件定义网络中部署强化学习模型时,不能精确感知网络状态导致的路由决策偏差问题,设计了一种在具有可编程数据平面的软件定义网络中,基于深度确定性策略梯度(DDPG)强化学习模型的路由优化方法。通过在可编程数据平面自定义数据包处理逻辑,获取细粒度、高精度的网络状态参数,然后在控制平面使用DDPG模型根据网络状态参数确定多条可选路径的链路权值,并为数据流选择具有最大综合剩余负载能力的路由路径,最后以源路由的方式下发流表。实验结果表明,该方法可以在较高的带宽需求下提高网络吞吐量和链路利用率,降低端到端传输时延和南向通信开销。