基于强化学习的5G URLLC承载网切片流量调度优化

基于强化学习的5G URLLC承载网切片流量调度优化0

摘要：随着5G通信技术的发展，各式各样的网络业务层出不穷。与此同时，新型网络业务使得传统通信承载网的基础设施面临着新的挑战。一方面，有一部分新型网络业务需要在5G网络的超低时延超高可靠性条件下（Ultra-reliable and Low Latency Communications， URLLC）场景下进行服务，此业务需要5G网络提供超低时延以及超高可靠性的通信保障。另一方面，此类型业务流量在传统承载网架构下容易形成局部链路拥塞从而影响交付质量。为解决这些问题，提出了一种基于SDN软件定义网络与强化学习URLLC场景承载网切片流量管理方法。此方法利用SDN转发与控制分离特性并借助深度强化学习来进行决策，从而达到最小化网络负载的效果。通过仿真实验，提出的流量调度方法优于传统的基本管理方法。

关键词：5G;网络切片;SDN;深度强化学习;负载均衡

中图分类号：TN914 文献标识码：A

文章编号：1009-3044（2022）13-0009-05

1 概述

近年来随着通信技术的不断发展，各式各样的新型网络通信业务应运而生，呈现出多场景、差异化特点[1]，这对目前网络基础设施中有限的网络资源提出更大的挑战。

一方面，有相当一部分的网络业务需要超低时延、超高可靠性的通信保障，另一方面，不同的网络业务有不同的通信需求，例如：对于无人机巡检，需要实时传输检测视频数据，传输数据量大，对带宽要求较高;对于毫秒级精准负荷控制，则对时延要求较高[2]，必须满足不同业务的实际需求，才能保证业务服务质量。

5G通信技术的飞速发展为解决上述挑战提供了一种新的思路与方法。5G是新一代蜂窝移动通信技术，是面向2020年以后移动通信需求而发展的新一代移动通信系统[3]。在文献[4]中，作者设计了一个支持URLLC场景的无线系统模型，满足URLLC场景下超低时延、超高可靠性的通信需求;文献[5]则针对5G网络中三种异构通信服务，提出一种沟通理论模型，保证服务质量。因此，研究和探讨针对5G网络切片的资源管理方法是有必要的。

针对URLLC场景下的业务需求，传统承载网的基础网络架构暴露出较多缺陷[6]。比如，传统通信网络中的流量管理往往基于最短路径转发原则，无法适应WAN网络流量的动态变化，经常使得网络设施中某处通信链路负载过大，而资源丰富的链路或者节点则被空置的状况。

目前传统的网络流量调控往往是基于单独节点的网络设备进行管理，无法从基于全局从整体性上对整个网络拓扑进行监控与调节从而实现全局最优。

SDN（软件定义网络）技术作为5G通信的基础技术，可以在网络流量管控过程中发挥巨大作用。相较于传统流量调度技术，SDN技术实现了节点控制与流量转发解耦的能力，以此达到了针对整个拓扑网络的全局统一控制，使得网络监控应用能够实现流量的动态调度[7]。例如，当网络流量发生异常波动而导致拥塞，传统网络管理技术需要针对所有网络设备进行排查与调整，而 SDN 架构由于控制功能和底层物理设备相分离，控制功能由控制器集中管理，只需要简单地修改应用指令就可以实现对网络的管控，相对于传统网络管理的烦琐工作， SDN 架构使工作效率大大提高，网络更加稳定[8]。

目前传统蜂窝网络中流量调控与负载均衡算法已被大量研究，如小区呼吸技术[9] 已被广泛应用于第二代和第三代移动通信网络中。由 X. Lin 和 S. Wang 提出的 Cloud RAN 中的高效 RRH 切换机制在考虑系统能效条件下实现了流量负载优化[10]。C. Ran 和 S. Wang 等人[11] 从另一个角度提出了 Cloud RAN 中的最佳负载均衡算法。通过周期性地监控衡量均衡度的公平指数，当其低于特定阈值时，则重新设计每个小区覆盖的区域以实现系统的负载均衡。

综合考虑面向5G网络通信资源的管理和流量调度管理，在实际资源管理过程中，传统的算法往往是基于启发式算法进行流量调控，在计算的过程中一般会增加控制器的计算负担，并且随着用户数量的增加，需要在巨大的决策空间中选择最优决策，耗时较长，而人工智能领域一个新的研究热点——深度强化学习，将深度学习的感知能力与强化学习的决策能力相结合，能让模型在不断的学习过程中自主选择最优策略，降低决策时间[12]。

基于上述的考虑，本文针对URLLC场景下网络切片，提出了一种基于深度强化学习的承载网网络流量调度管理方法。可以动态地依据整体网络拓扑运行状况，弹性地为不同的通信业务流量分配链路资源，针对不同业务，在保证其时延和可靠性要求的同时，满足不同业务的个性化需求，同时优化整体网络拓扑的负载程度。

2 系统模型

如图1所示，针对URLLC场景下多种业务需求可将承载网通信管道切分为软件管道，在SDN上的实现主要是依据需求将物理链路资源映射为不同的虚拟子网切片，为不同的网络业务分配切片资源，在保证其时延和可靠性要求的同时，满足不同用户的个性化需求。如在物联网领域，URLLC场景下业务大致可分为移动应用类、信息采集类和生产控制类三种[13]。

本文针对5G承载网切片网络中的流量调度问题以优化网络负载均衡状况为切入点，在通过网络虚拟化工作将网络拓扑映射为若干个虚拟子网后，通过强化学习智能体对不同业务在各个虚拟子网中的流量导向进行调控，从而达到整体网络负载较为均衡的状况。

2.1 整体架构

本文提出的切片网络流量优化技术架构主要如图2所示，各层级介绍如下：

基础物理架构层是由一系列SDN可控交换机组成的物理拓扑[14]，该层接受SDN控制器的流量监控、重定向以及链路映射指令。

子网切片层是利用SDN的网络虚拟化工具，将不同链路映射为对应的虚拟子网，并通过流量重定向将流量走向重定向至由不同链路以及节点组成的虚拟子网，以此实现不同业务之间的端到端切片。

而由OpenDaylight及其VTN组件组成的控制层则负责监控整体网络流量，连接应用层与网络拓扑，统筹全局网络，并使用北向接口接受应用层的控制策略，同时借助南向接口向切片层传递控制信息。

顶层为运行网络流量负载均衡优化算法的强化学习智能体，其收集整个网络的拓扑资源信息以及数据流量状况从而生成控制策略，然后将控制策略下发至控制层。

2.2 负载均衡模型

负载均衡中流量调度问题可以被建模成一个多商品流问题，多商品流问题（Multi-Commodity Flow Problem）是多种商品（或货物）在网络中从不同的源节点流到不同宿节点的网络流问题。多商品流问题的目标是以最小的成本实现商品在网络中的流通，且不能超过每条边的承载能力。

本文中的拓扑模型可泛化作为无向图G=（V ， E）其中V是图G所有节点即物理交换机的集合，E是图G中所有边的集合即整个网络拓扑中的物理链路。本文涉及网络切片多业务场景，故记[I]为所有业务组成的集合。对于业务[i∈I]，一个相邻节点对之间的单条链路可表示为[wi]，则[wi∈E]，不同链路中资源与能力存在一定差异，每条链路中的总带宽资源记为[cw]。

对于V集合中任意一组节点对记为v，所有节点对的集合为K，记v之间的一条链路记为业务i的业务切片[si]，则K集所有节点对之间网络切片记为S，节点对v之间针对业务i的所有流量路径集合记为[Pvi]。将整体拓扑中所有节点对之间的流量请求矩阵记为M，则v之间的业务i流量请求可记为[mvi]。在多业务运行过程中，不同业务会在同一切片中产生竞态情况，也就是同一切片中可能会经过多种业务流量，所以这里需要定义变量[xsi∈[0，1]]表示业务i在切片s中的与其他的业务资源占比，当业务i优先级高于其他业务或者无其他业务存在时，[xsi=1]，如果当前网络切片不存在业务[i]或者优先级完全低于其他业务时[xsi=0]，当业务[i]需要与其他业务部分共享切片资源时变量[xsi∈（0，1）]。

本文的关键在于如何找到多商品流问题的资源分配问题，其目标主要是依据业务优先级以及资源分配需求，保证主要业务在多业务运行环境下的网络拓扑中运行性能。

首先针对切片资源占有进行建模，定义业务[i]的整体切片资源占有率[Ui]，用以表示当前业务流量大小和当前所在物理链路带宽的比值，从而可以反映出链路的资源使用情况。

[Uiw=pi∈Pw∈pis，d∈Kxwimvicw] （1）

计算出链路的资源使用后，可通过所有链路中的不同业务上的链路利用率的最大值与最小值的差值的平均值来反映链路上负载均衡状况，值越小，说明资源分配较为均衡，负载处于较为均衡状态。

[δ=i∈ImaxUiw-minUiwI] （2）

同时由于网络流量存在瞬时激增或速降的状况，当前时刻的负载均衡值并不能良好地反映网络状况，以至于干扰后续拓扑链路决策，本文采用梯度更新的方式对负载均衡值进行更新。

[δ=δt+ϕδt-δt-1] （3）

对于流量传输过程中的时延信息，一般认为链路上的时延与流量拥堵程度成正比，因此对于整体网络拓扑的时延，其定义如下：

[Ti=αEwi∈Emvicw] （4）

3 目标函数及解决方法

3.1 问题描述

在本文中，我们希望系统可以在满足业务时延要求和高可靠性的条件下，尽量采用负载均衡度高的切片链路分配与虚拟子网映射方案来进行任务的传输。因此我们定义整个系统所要优化的目标函数如下所示：

[min δ] （5）

[p∈Pvixwi=1][] （6）

[xwi∈0，1] （7）

式（5）为目标函数，其目的是最小化网络负载均衡度;式（6）表示当前时刻业务i所有的流量请求都会被分配到对应的虚拟子网切片上。式（7）保证分配到各自虚拟子网切片以及多重映射的链路的业务占比不得为负值或者超过链路资源。

3.2 解决方法

针对以上场景，本文提出一种基于DQN（Deep Deterministic Policy Gradient）流量管理方法，其网络结构如图3所示。其基本原理是DQN智能体与环境不断交互，获得当前环境状态，然后随机抽样选择一个动作执行，执行完该动作后，环境会从当前状态以某个概率转移到另一个状态，同时智能体会接收到环境反馈的一个奖励或惩罚。在此过程中不断收敛Q函数，并增大从环境中获取的奖励。