基于深度强化学习的服务功能链多维资源优化

doi:10.3778/j.issn.1002-8331.2002-0068

计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (4): 68-76.DOI: 10.3778/j.issn.1002-8331.2002-0068

基于深度强化学习的服务功能链多维资源优化

王晓，唐伦，贺小雨，陈前斌

1.重庆邮电大学通信与信息工程学院，重庆 400065
2.重庆邮电大学移动通信技术重点实验室，重庆 400065

出版日期:2021-02-15 发布日期:2021-02-06

Multi-dimensional Resource Optimization of Service Function Chain Based on Deep Reinforcement Learning

WANG Xiao, TANG Lun, HE Xiaoyu, CHEN Qianbin

1.School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.Key Laboratory of Mobile Communication, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

Online:2021-02-15 Published:2021-02-06

摘要/Abstract

摘要：

在网络功能虚拟化（Network Function Virtualization，NFV）环境下，保证用户服务功能链（Service Function Chain，SFC）服务质量的同时节约资源消耗，降低运营成本，对运营商来说至关重要。联合考虑SFC部署和无线接入网资源分配，提出一种基于深度强化学习的SFC多维资源联合分配算法。构建一种基于环境感知的SFC资源分配机制，建立用户时延要求、无线速率需求以及资源容量等约束下的SFC部署成本最小化模型。考虑到无线环境的动态变化，将此优化问题转化为一个无模型离散时间马尔科夫决策过程（Markov Decision Process，MDP）模型。由于该MDP状态空间的连续性和动作空间的高维性，采用深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）强化学习算法进行求解，得到最小化部署成本的资源分配策略。仿真结果表明，该算法可在满足性能需求及资源容量等约束的同时，有效降低SFC部署成本和端到端传输时延。

关键词: 网络功能虚拟化, 服务功能链部署, 无线资源分配, 强化学习, 深度确定性策略梯度算法

Abstract:

In the Network Function Virtualization（NFV） environment, it is important for operators to save resource consumption and reduce operating costs while ensuring the service quality of the users’ Service Function Chain（SFC）. This paper jointly considers SFC deployment and radio access network resource allocation, and proposes an SFC multi-dimensional resource allocation algorithm based on deep reinforcement learning. Firstly, an SFC resource allocation mechanism based on environment awareness is built, and an SFC deployment cost minimization model is established with the constraints of user delay requirements, wireless rate requirements and resource capacity. Secondly, considering the dynamics of the wireless environment, this optimization problem is transformed into a model-free discrete-time Markov Decision Process（MDP） model. Due to the continuity of the MDP’s state space and the high dimensionality of the action space, a Deep Deterministic Policy Gradient（DDPG） reinforcement learning algorithm is leveraged to solve the problem, accordingly a resource allocation strategy that minimizes the deployment cost is obtained. Simulation results show that the algorithm can effectively reduce the SFC deployment cost and end-to-end transmission delay while satisfying the constraints of performance requirements and resource capacity.

Key words: network function virtualization, service function chain deployment, radio resource allocation, reinforcement learning, deep deterministic policy gradient

王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.

WANG Xiao, TANG Lun, HE Xiaoyu, CHEN Qianbin. Multi-dimensional Resource Optimization of Service Function Chain Based on Deep Reinforcement Learning[J]. Computer Engineering and Applications, 2021, 57(4): 68-76.

[1]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[2]	周友行，赵晗妘，刘汉江，李昱泽，肖雨琴. 采用DDPG的双足机器人自学习步态规划方法[J]. 计算机工程与应用, 2021, 57(6): 254-259.
[3]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[4]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[5]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[6]	王军，曹雷，陈希亮，赖俊，章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
[7]	成怡，郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262.
[8]	况立群，李思远，冯利，韩燮，徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278.
[9]	李浩，宁浩宇，康雁，梁文韬，霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176.
[10]	孔松涛，刘池池，史勇，谢义，王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59.
[11]	宋浩楠，赵刚，王兴芬. 融合知识表示和深度强化学习的知识推理方法[J]. 计算机工程与应用, 2021, 57(19): 189-197.
[12]	张荣霞，武长旭，孙同超，赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56.
[13]	杨薛钰，陈建平，傅启明，陆悠，吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111.
[14]	王科银，石振，杨正才，杨亚会，王思山. 改进强化学习算法应用于移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(18): 270-274.
[15]	张俊，朱庆伟，严俊杰，温波. 改进强化学习算法的UAV室内三维航迹规划[J]. 计算机工程与应用, 2021, 57(16): 175-181.

基于深度强化学习的服务功能链多维资源优化

Multi-dimensional Resource Optimization of Service Function Chain Based on Deep Reinforcement Learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics