Evaluation¶

在一个 12 核处理器、32GB 内存的单台台式机上，全面测试了 SERENADE 仿真器的各项性能，并与其他现有系统进行了对比，最后通过几个具体的案例展示了其作为数字孪生的能力

5.1 Scalability¶

本小节从“节点数量”和“总体流量”两个维度测试了 SERENADE 的单机扩展极限，并与基线模型进行了对比

(1) 节点规模的扩展 (Scaling the Nodes):

alt text

(2) 流量规模的扩展 (Scaling the Traffic):

在总吞吐量相同的情况下（例如总计 1 Gbps），无论活跃用户数是 100 还是 10,000，内存和 CPU 的占用几乎相同

但随着“总体吞吐量”的增加，CPU 负载会显著上升，当总吞吐量达到约 10 Gbps 时（CPU 负载约 75%），CPU 成为主要瓶颈

alt text

(3) 资源与启动效率对比 (Remaining Efficient):

在 1000 个节点的规模下，与 StarryNet、OpenSN 和 Mininet 相比，SERENADE 的 CPU 和内存占用均为最低

更关键的是，StarryNet 的启动/停止时间长达数十分钟，而 SERENADE 几乎是瞬时（亚秒级）完成启动和拆除

alt text

本小节旨在验证 SERENADE 在高规模下是否依然能保持微观网络行为（如延迟、抖动）的准确性。

(1) 匹配真实世界的延迟 (Matching Real-World Latency):

作者利用真实的 Starlink 终端收集了 RTT（往返时间）数据，并与仿真器的数据进行对比

由于 SERENADE 的混合流量模型引入了真实的排队竞争，在拥塞配置下（SER-C），仿真器的延迟分布和波动方差极其完美地贴合了真实 Starlink 网络的测量结果

alt text

(2) 高频更新对仿真器延迟的意义 (Emulator Latency):

比较了 0.3 秒和 10 秒两次星座状态更新间隔的区别

alt text

(3) 卫星切换下的网络自适应 (Satellite Switches):

测试了 10 个用户在多颗卫星间切换时的吞吐量表现

当卫星动态离开、加入或改变用户分配时，底层真实的 TCP 流能够精确地根据当前卫星的可用容量（10 Mbps 分摊）自适应调整吞吐量

alt text

连接策略的全局效应

展示了只有在大规模仿真中才能被观测到的网络全局效应。

实验在全美分布了 5000 个用户和 54 个网关，测试了三种网络连接编排策略: 贪心策略（连最近的卫星）、最优规划（Optimized）和图神经网络（GNN）

结果表明:

吞吐量分布如 Figure 13a 所示；随机抽取的三个用户的实时吞吐量追踪如 Figure 13b 所示

alt text

实时热更新: 能力 + 作用-现实案例(台风)

展示了 SERENADE 在不中断应用运行的情况下，根据“真实世界”的突发情况 进行实时热更新 的能力

(1) 应对星座更新:

模拟现实中突然增加了一颗新卫星 (s2) 。研究人员可以在“全真”应用流量（iperf 的 TCP BBR 流）不断开的情况下，花约 1.5 秒更新底层系统

更新后，部分用户自动切换到新卫星并独享满速带宽

alt text

(2) 应对需求动态:

模拟 2024 年飓风海伦摧毁地面基站的场景

在仿真器持续运行期间，当飓风路径确认后，研究人员“动态（on-the-fly）”将受灾路径上综合用户的网络需求提高了 10 倍，以模拟人们涌向卫星网络求救的场景

可以清晰观察到受灾区域用户吞吐量的锐减，而未受影响区域的用户保持正常

alt text