跳转至

Motivation and Background

2.1 A primer on virtualized RANs

vRAN 的核心组件构成

典型的 5G vRAN 部署包含三个主要组件:无线电单元 (RU)、分布式单元 (DU) 和集中式单元 (CU)

其中,RU 通常由专用硬件(如 ASIC 或 FPGA)实现,而 DU 和 CU 则是运行在商用服务器上的软件应用程序

  • DU 因为有严格的实时延迟要求,部署位置紧邻 RU
  • CU 对延迟的容忍度较高,因此可部署在更远的数据中心

alt text

  • RAN 协议栈的层级划分

    • DU 负责实现具有严格实时要求的底层协议,包含用于无线信号处理的物理层 (PHY) 以及负责调度无线电资源的媒体访问控制层 (MAC)
    • CU 则负责实现对延迟较不敏感的更高层级,例如负责管理无线设备操作(包括网络切换)的无线电资源控制层 (RRC)
  • 开放式接口规范

    • 各个组件通过 3GPP 和 O-RAN 联盟等标准化的接口进行通信
    • 其中与 DU 相关的关键接口包括:
      • 连接 RU 的具有实时要求的前传接口 (xRAN/Fronthaul)
      • 连接 CU 的中传接口 (F1-C/Midhaul)
      • 连接智能控制器 (RIC) 的 E2 接口

2.2 Need for resilience in vRANs

蜂窝网络是支持公共安全等关键应用的重要基础设施,尽管移动核心网和 CU 的弹性机制已有广泛研究,但由于 DU 的严格实时性和黑盒特性,目前尚未有针对 DU 的弹性解决方案

  • 计划内事件(日常维护)

    • vRAN 的优势之一在于便于推送功能更新、操作系统/安全补丁或进行硬件维护
    • 但由于缺乏针对 DU 的弹性机制,这些常规更新会导致长达数秒至数分钟的严重服务中断,迫使运营商只能在深夜安排停机窗口
  • 计划外事件(突发故障)

    • 服务器硬件故障或软件崩溃在数据中心难以避免
    • 发生此类故障时,为了保障网络高可用性,必须迅速将受影响的用户设备 (UE) 迁移至其他正常的 DU 服务器

2.3 Requirements for resilient vRANs

  • 将停机时间降至最低

    • 在计划内的弹性事件中应做到真正的零停机时间
    • 在面临故障时,其停机中断时间也必须控制在与用户日常因信号盲区导致的“切换失败”相当的极短时间内
  • 最小化计算开销与成本

    • 在网络正常运行时,系统所引入的延迟和 CPU 开销必须接近于零
    • 由于 DU 节点的部署规模极大(常多达数千个站点),必须严格控制冗余成本
  • 具备供应商无关性 (Vendor agnostic)

    • 由于商用的 DU 软件极其复杂(动辄数十万行代码)且由领域专家编写的闭源协议,重新开发并不现实
    • 因此,弹性方案必须能兼容并直接应用于任何符合标准的现有 vRAN 实现,而无需去修改其底层源代码

2.4 Limitations of existing RAN resilience approaches

  • 向邻近小区卸载用户 (Neighbor cell offload)

    • 传统的故障转移依赖将用户分配给附近的基站。但这要求极高的小区覆盖重叠密度(偏远地区或企业网中通常不具备)
    • 其次,这种硬切换不仅会导致吞吐量严重下降,在突发故障时现有的 5G 协议更无法保证用户能稳定重连
    • 此外,这也违背了虚拟化中将多个 DU 集中池化管理的初衷
  • 依赖容错的状态存储机制 (Fault-tolerant state store)

    • 像核心网使用的通过将状态提取到键值数据库的方法并不适用
    • 首先它需要大规模修改商业源码
    • 其次,键值数据库约 100 微秒的延迟会直接挤占 DU 原本就极度紧张的处理时间窗口(如每 500 微秒一次的 MAC 调度)
  • 直接创建全新的 DU 实例

    • 如果依赖像 Kubernetes 这样的集群编排工具来重启或新建一个 DU 容器,其长达数十秒(经测试超过 50 秒)的启动延迟对于实时系统而言是完全无法接受的断网灾难
  • 向热备 DU 的无状态迁移

    • 部分现有工作(如 Slingshot)能在两个服务器之间无缝迁移无状态的底层 PHY 信号处理
    • 但 DU 更高层级(如 MAC 和 RLC 层)实际上维护着用户的长效状态(如确认消息的跟踪),单纯开启一个热备 DU 仍会导致连接完全中断长达 3 秒以上