Insights from Operating an IP Exchange Provider¶
ABSTRACT¶
IP Exchange Providers (IPX-Ps) offer to their customers (e.g., mobile or IoT service providers) global data roaming and support for a variety of emerging services. They peer to other IPX-Ps and form the IPX network, which interconnects 800 MNOs worldwide offering their customers access to mobile services in any other country. Despite the importance of IPX-Ps, little is known about their operations and performance. In this paper, we shed light on these opaque providers by analyzing a large IPX-P with more than 100 PoPs in 40+ countries, with a particularly strong presence in America and Europe. Specifically, we characterize the traffic and performance of the main infrastructures of the IPX-P (i.e., 2-3-4G signaling and GTP tunneling), and provide implications for its operation, as well as for the IPX-P’s customers. Our analysis is based on statistics we collected during two time periods (i.e., prior and during COVID-19 pandemic) and includes insights on the main service the platform supports (i.e., IoT and data roaming), traffic breakdown and geographical/temporal distribution, communication performance (e.g., tunnel setup time, RTTs). Our results constitute a step towards advancing the understanding of IPX-Ps at their core, and provide guidelines for their operations and customer satisfaction.
IP交换提供商(IPX-Ps)为其客户(例如,移动或物联网服务提供商)提供全球数据漫游服务,并为各种新兴服务提供支持。它们与其他IPX-Ps对等互联,共同构成IPX网络。该网络连接了全球800家移动网络运营商(MNOs),使其客户能够在任何其他国家接入移动服务。 尽管IPX-Ps至关重要,但其运营和性能却鲜为人知。本文旨在通过分析一家大型IPX-P来揭示这些不透明的提供商。
该IPX-P在40多个国家拥有超过100个接入点(PoPs),在美洲和欧洲尤为突出。具体而言,我们对该IPX-P主要基础设施(即2G/3G/4G信令和GTP隧道)的流量和性能进行了表征,并探讨了其对自身运营及其客户的影响。我们的分析基于我们在两个时间段(即COVID-19大流行之前和期间)收集的统计数据,并包含了对该平台支持的主要服务(即物联网和数据漫游)、流量构成、地理/时间分布以及通信性能(例如,隧道建立时间、往返时延RTTs)的洞察。我们的研究结果朝着深入理解IPX-Ps核心运作机制的目标迈出了一步,并为其运营和客户满意度提供了指导方针。
Tip
- IPX-P:
IP Exchange Provider
, IP 交换提供商 - MNO:
Mobile Network Operator
, 移动网络运营商 - GTP:
GPRS Tunnelling Protocol
, GRPS隧道协议
INTRODUCTION¶
International mobile roaming is a key feature of cellular networks, enabling mobile subscribers to seamlessly use cellular services worldwide. It supports a growing number of international travellers [1], which can access data roaming at a limited or no cost [9, 10, 28], often using applications with stringent Quality of Experience (QoE) requirements (e.g., VoLTE, video streaming). Further, MNOs’ infrastructure now offers the basic technological support for cellular Internet of Things (IoT) and boosts Machine-toMachine (M2M) platforms as global connectivity providers [19]. Major Mobile Network Operators (MNOs) exploit international roaming to ensure world-wide connectivity to IoT providers, which ship their devices internationally (from wearables to cars and shipping containers) with pre-arranged cellular service (i.e., provisioned Subscriber Identity Module (SIM) card for the IoT device).
国际移动漫游是蜂窝网络的一项关键特性,它使移动用户能够在全球范围内无缝使用蜂窝服务。该服务支持着日益增多的国际旅行者 [1],这些旅行者能够以有限的成本或免费接入数据漫游 [9, 10, 28],并且经常使用具有严格体验质量 (QoE) 要求的应用(例如,VoLTE、视频流)。此外,移动网络运营商(MNOs)的基础设施现已为蜂窝物联网(IoT)提供了基础技术支持,并推动了机器对机器(M2M)平台发展成为全球连接服务提供商 [19]。主要的移动网络运营商(MNOs)利用国际漫游来确保物联网提供商的全球连接性,这些提供商将其设备(从可穿戴设备到汽车和集装箱)运往国际市场时,设备已预先配置了蜂窝服务(即为物联网设备配置了用户识别模块(SIM)卡)。
Under the IP Packet Exchange (IPX) model [4, 5], MNOs leverage IPX Providers (IPX-Ps) [26] for interconnecting with all other MNOs for roaming. Specifically, with only one connection and one agreement, IPX-Ps offer their customers (e.g., MNO) interconnection for worldwide data roaming, and support for a variety of emerging applications, including IoT verticals, VoLTE and video streaming. No IPX-P on its own is able to provide connections on a global basis (e.g., single-handily interworking with all MNOs). IPX-Ps peer to each-other to form the IPX Network, today composed of 29 active IPX-Ps peering using three major peering exchange points, and interconnecting about 800 MNOs worldwide [18]. This is an isolated network that bypasses the public Internet [3], ensuring global, secure, SLA-compliant services. In an earlier publication we provide a tutorial-style description of the IPX ecosystem [18].
在IP包交换(IPX)模型 [4, 5]下,MNOs利用IP交换提供商(IPX-Ps)[26] 与所有其他MNOs进行互联以实现漫游。具体而言,仅通过一次连接和一份协议,IPX-Ps就能为其客户(例如MNO)提供全球数据漫游的互联服务,并为包括物联网垂直行业、VoLTE和视频流在内的各种新兴应用提供支持。没有任何一家IPX-P能够独立地提供全球范围的连接(例如,单独与所有MNOs实现互通)。IPX-Ps之间通过对等互联形成IPX网络,如今该网络由29家活跃的IPX-Ps组成,它们通过三个主要的对等交换点进行互联,连接了全球约800家MNOs [18]。这是一个绕过公共互联网的隔离网络 [3],确保提供全球性、安全且符合服务等级协议(SLA)的服务。在我们早期发表的一篇文章中,我们对IPX生态系统进行了教程式的描述 [18]。
In this paper, we present the first detailed analysis of operations in a real-world large IPX-P, and discuss performance implications. Despite IPX-Ps being at the core of today’s international mobile ecosystem, little is know about how they operate to satisfy customer requirements. Our study is based on data we collected directly from the IPX-P’s operational signaling and data roaming infrastructures for two weeks in December 2019 and July 2020. This allows us to capture the system status both prior to the COVID-19 emergency as well as the "new normal", given the significant change the pandemic brought to mobile network demand [20].
在本文中,我们对一家真实大型IPX-P的运营进行了首次详细分析,并讨论了其性能影响。尽管IPX-Ps处于当今国际移动生态系统的核心地位,但关于它们如何运作以满足客户需求的认知却非常有限。我们的研究基于我们于2019年12月和2020年7月这两个为期两周的时间段内,直接从该IPX-P的运营信令和数据漫游基础设施收集的数据。鉴于新冠肺炎(COVID-19)大流行对移动网络需求带来了显著变化 [20],这使我们能够捕捉到该系统在疫情爆发前以及“新常态”下的状态。
We study the main services the IPX provides, namely, the signaling services for data roaming, and zoom into the specific support of IoT customers (Section 4). Our goal is to first establish which are the most popular solutions (i.e., corresponding to the different Radio Access Technologys (RATs)) the IPX-P offers, and which are the implications of the operational reality for the evolution of the ecosystem. We observe the 2G/3G signaling infrastructure is one order of magnitude more loaded than the 4G one. The heavy reliance on 2G/3G incurs high costs to operators in maintaining legacy radio networks, and highlights lack of consistency in deploying latest generation technologies worldwide.
我们研究了该IPX提供的主要服务,即数据漫游的信令服务,并重点关注了对物联网客户的特定支持(第4节)。我们的目标首先是确定该IPX-P提供的最流行的解决方案(即对应于不同无线接入技术(RATs)的方案),以及运营现实对生态系统演进的影响。我们观察到2G/3G信令基础设施的负载比4G高出一个数量级。对2G/3G的严重依赖给运营商维护传统无线网络带来了高昂成本,并突显了在全球范围内部署最新一代技术方面缺乏一致性。
We further capture the operational breadth of the IPX-P, and especially focus on how the underlying transit provider network impacts the operational presence of the IPX-P. We find that the IPX-P traffic is centered in few main mobility hubs where the IPX-P owns important trans-oceanic infrastructure. Nevertheless, operations provide coverage to more than 200 countries, highlighting the importance of the IPX Network, but can be impacted by local socio-economic mobility trends (e.g., VenezuelaColombia migration). The analysis of the signaling error codes reveals that the IPX-P often uses these to implement specific routing policies for its customers (e.g., the non-negligible usage of steering of roaming practice via Roaming Not Allowed errors).
我们进一步捕捉了该IPX-P的运营广度,并特别关注了底层转接提供商网络如何影响IPX-P的运营覆盖。我们发现,该IPX-P的流量集中在少数几个主要的移动枢纽,IPX-P在这些枢纽拥有重要的跨洋基础设施。尽管如此,其运营覆盖了200多个国家,凸显了IPX网络的重要性,但也可能受到当地社会经济迁移趋势的影响(例如,委内瑞拉-哥伦比亚移民潮)。对信令错误代码的分析显示,IPX-P经常使用这些代码为其客户实施特定的路由策略(例如,通过“不允许漫游”错误来引导漫游的现象屡见不鲜)。
We also analyze the variety of device types that the IPXP’s customer base integrates. Specifically, we capture the impact of IoT devices that benefit from the IPX-P’s global infrastructure. We find that most operate as permanent roamers, and their long roaming sessions contributes significantly more load to the IPX-P system than smartphone devices. Moreover, synchronous traffic patterns from IoT devices with similar behavior put a very high stress on the IPX-P platform, resulting in periodic high error rates and impact on the IPX-P performance. The design of the IoT devices (which likely ignores the GSMA standards around flow sequences for registration, retries, etc.) creates the synchronous pattern affecting the IPX Network. The large proportion of IoT devices within the IPX-P’s customer base also explains why the mobility restrictions nations imposed to tackle the COVID-19 emergency did not heavily affect the IPX-P customer base (≈10% drop in number of devices active, compared to ≈20% MNOs reported [20]).
我们还分析了该IPX-P客户群所集成的各种设备类型。具体而言,我们捕捉了受益于IPX-P全球基础设施的物联网设备所带来的影响。我们发现,大多数物联网设备以永久漫游方式运行,其长时间的漫游会话给IPX-P系统带来的负载远超智能手机设备。此外,行为相似的物联网设备产生的同步流量模式对IPX-P平台造成了极高的压力,导致周期性的高错误率并影响IPX-P的性能。物联网设备的设计(很可能忽略了GSMA关于注册、重试等流程顺序的标准)造成了影响IPX网络的同步模式。IPX-P客户群中物联网设备所占的巨大比例也解释了为何各国为应对COVID-19疫情而实施的出行限制并未严重影响IPX-P的客户群(活跃设备数量下降约10%,而MNOs报告的降幅约为20% [20])。
We further expose and evaluate the emerging patterns of data communication that IPX-P’s end-users generate. For this, we focus our analysis on the dynamics of the data roaming service of the IPX-P (Section 5). We expose the large fraction of silent roamers from the South America region, which is the direct result of the high costs for roaming services that is still on offer from operators in the region (in contrast, for instance, with Europe and its Roam Like At Home regulation). Interestingly, traffic patterns of silent roamers are similar to IoT devices and generate traffic on the signaling infrastructure but very little or no data traffic.
我们进一步揭示并评估了IPX-P终端用户产生的 उभर现的数据通信模式。为此,我们将分析重点放在IPX-P数据漫游服务的动态上(第5节)。我们揭示了来自南美地区的大量“沉默漫游者”,这是该地区运营商仍在提供高成本漫游服务的直接结果(例如,与欧洲及其“漫游如在家”法规形成对比)。有趣的是,沉默漫游者的流量模式与物联网设备相似,它们在信令基础设施上产生流量,但数据流量极少或没有。
We finally tackle one of the most important aspect of the operational analysis, namely, the performance of the IPX-P platform while enabling the data roaming service and fulfilling its main functionality (i.e., setting up and tearing down GPRS Tunneling Protocol (GTP) tunnels for data communication in roaming). For this, we analyze the data roaming dataset to reveal statistics and capture patterns of how the IPX-P platform activates GTP tunnels for data roaming communication its end-users request (Section 6). Majority of the data roaming traffic is TCP or UDP used for Web (i.e., HTTP/HTTPS) and DNS, respectively. In terms of performance, the quality of services strongly depends on the roaming configuration (i.e., home routed or local breakout), and is impacted by the geographical location of the users, or by the applications/IoT verticals and remote servers. We observe that the IPX-P takes full advantage of the flexibility if the IPX model, offering tailored solutions to its customers, to satisfy their requirements in terms of roaming configuration and quality of service.
最后,我们探讨了运营分析中最重要的方面之一,即IPX-P平台在启用数据漫游服务和履行其主要功能(即为漫游中的数据通信建立和拆除GPRS隧道协议(GTP)隧道)时的性能。为此,我们分析了数据漫游数据集,以揭示该IPX-P平台如何为其终端用户请求的数据漫游通信激活GTP隧道的统计数据和模式(第6节)。大部分数据漫游流量是用于Web(即HTTP/HTTPS)的TCP或用于DNS的UDP。在性能方面,服务质量在很大程度上取决于漫游配置(即归属地路由或本地疏导),并受到用户地理位置或应用/物联网垂直行业及远程服务器的影响。我们观察到,IPX-P充分利用了IPX模型的灵活性,为其客户提供量身定制的解决方案,以满足他们在漫游配置和服务质量方面的需求。
TL;DR
(1) 核心问题与重要性:
- IPX-P 的关键性与不透明性:IP交换提供商(IPX-Ps)是全球移动漫游生态系统的核心,连接着约800家移动网络运营商(MNOs),支持国际数据漫游和新兴服务(如物联网IoT、VoLTE)。然而,其运营和性能细节鲜为人知
- 研究目的:本文旨在通过对一家大型真实IPX-P的运营进行首次详细分析,揭示其运作机制、流量特征和性能表现,为理解IPX-Ps及其客户提供洞见
(2) 研究方法与数据:
- 数据收集: 基于从一家大型IPX-P(在40+国家有100+ PoPs)的运营信令和数据漫游基础设施直接收集的数据
- 时间跨度: 数据涵盖两个关键时期:2019年12月(COVID-19疫情前)和2020年7月(疫情“新常态”下),对比分析
(3) 关键分析内容与技术:
- 主要服务与基础设施分析:
- 信令服务:重点分析2G/3G/4G信令,特别是针对数据漫游和IoT客户
- GTP隧道:分析 GPRS 隧道协议(GTP)隧道的建立、拆除及数据通信动态
- 流量特征与分布:
- 服务类型:物联网(IoT)和数据漫游是主要支持的服务
- 技术依赖:观察到2G/3G信令基础设施的负载远高于4G,揭示了对老旧技术的依赖及新技术部署的不一致性
- 地理与运营: IPX-P流量集中在少数移动枢纽,但通过IPX网络实现全球覆盖。运营受底层转接网络和地区性迁移趋势影响
- 特定用户行为与影响:
- IoT设备:大量IoT设备以“永久漫游者”形式存在,其长会话和同步流量模式对IPX-P系统造成显著负载和周期性高错误率。GSMA标准可能未被遵循
- “沉默漫游者”:尤其在南美地区,由于漫游费用高昂,存在大量“沉默漫游者”,其流量模式类似IoT设备(信令流量多,数据流量少)
- COVID-19影响:由于IoT设备占比较高,疫情对IPX-P客户群的影响(约10%设备数下降)小于MNOs的报告(约20%)
- 路由与策略:
- 信令错误码应用:IPX-P利用信令错误码实施客户特定的路由策略(如漫游导向)
- 性能分析:
- GTP隧道性能:隧道建立时间、RTTs 等
- 服务质量(QoS):受漫游配置(归属地路由 vs. 本地疏导)、用户地理位置、应用/IoT垂直领域及远程服务器影响
- IPX模型灵活性:IPX-P利用模型灵活性为客户提供定制化解决方案
大量IoT设备以“永久漫游者”形式存在,其长会话和同步流量模式对IPX-P系统造成显著负载和周期性高错误率。GSMA标准可能未被遵循
“永久漫游者”(Permanent Roamers):
- 含义: 传统的漫游指的是手机用户临时到国外使用网络。但 很多物联网(IoT)设备(例如,安装在全球运输集装箱上的追踪器、部署在国外的智能电表、国际品牌的联网汽车等)其SIM卡可能属于一个国家的运营商,但设备本身被长期甚至永久性地部署在另一个国家或全球移动 。这些设备从部署开始就一直处于“漫游”状态,因此被称为“永久漫游者”
- 对IPX-P的影响: IPX-P是连接不同国家运营商以实现漫游的核心。永久漫游的IoT设备意味着IPX-P需要持续处理这些设备的信令(如位置更新、网络附着)和数据连接
“长会话”(Long Sessions):
- 含义: 很多IoT设备被设计为长时间在线,或者保持网络注册状态以便随时可以传输少量数据或接收指令。 与人类用户可能频繁开关机或断开网络连接不同,IoT设备的“会话”(即一次网络连接的持续时间)可能非常长,甚至数月或数年
- 对IPX-P的影响: 大量长会话会持续占用IPX-P网络中的资源,如信令网关的处理能力、GTP隧道(用于数据传输)的相关资源等
“同步流量模式”(Synchronous Traffic Patterns):
- 含义: 设想成千上万台同类型的IoT设备(比如同一批次的智能水表)被编程设定在同一时间点(例如,每天午夜12点)集中上报数据或进行心跳连接。这就造成了“同步”的流量高峰,大量设备在短时间内同时尝试连接网络、发送信令或数据
- 对IPX-P的影响: 这种突发的、集中的流量会对IPX-P的信令处理系统(如Diameter信令、SS7信令)和数据平面造成巨大冲击,好比城市交通系统在早晚高峰期一样。如果IPX-P的处理能力不足以应对这种瞬时高峰,就会导致处理延迟、连接失败,从而表现为“周期性高错误率”
“沉默漫游者”:尤其在南美地区,由于漫游费用高昂,存在大量“沉默漫游者”,其流量模式类似IoT设备(信令流量多,数据流量少)
“沉默漫游者”(Silent Roamers):
- 含义:指的是那些手机用户,当他们漫游到国外时,为了避免产生高昂的漫游费用,会有意识地关闭移动数据功能,甚至不主动拨打电话或发送短信。他们的手机仍然开机并注册在当地的漫游网络上(这样可以接收来电显示,但他们可能选择不接听),但几乎不产生数据流量
- 对IPX-P的影响:即使用户不主动使用数据,他们的手机为了维持网络连接(例如,周期性的位置更新,以便网络知道它在哪里,能够接收来电),仍然会产生信令流量。这些信令需要通过IPX-P在拜访地网络和归属地网络之间传递
“尤其在南美地区,由于漫游费用高昂”:
- 含义: 论文中特别提到南美地区,暗示该地区的国际漫游费用可能相对较高,或者缺乏像欧盟“Roam Like At Home”(漫游如在家,即区域内漫游不额外收费或费用很低)那样的优惠政策。高昂的费用是用户选择成为“沉默漫游者”的主要原因
- IPX-P的视角: IPX-P作为全球漫游的中枢,能够观察到不同区域用户行为的差异
“其流量模式类似IoT设备(信令流量多,数据流量少)”:
- 含义:这是关键的对比。一个“沉默漫游者”虽然是人类用户,但从网络流量的角度看,其行为特征——即产生了维持网络连接所必需的信令流量,但几乎没有实际的用户数据流量(如图上网、看视频等)——与某些类型的IoT设备非常相似。很多IoT设备可能只是周期性地发送非常小量的数据包(比如一个位置信息或一个传感器读数),或者大部分时间只是保持“在线”状态以备不时之需,因此 它们的信令开销相对于实际传输的数据来说占比很高
- 对IPX-P的影响: 对IPX-P而言,无论是“沉默漫游者”还是特定类型的IoT设备,它们都在消耗信令资源,但贡献的数据流量(通常是运营商和IPX-P收入的重要来源之一)却很少。这意味着IPX-P需要为这些“低数据贡献”的连接承担信令处理成本
COVID-19影响:由于IoT设备占比较高,疫情对IPX-P客户群的影响(约10%设备数下降)小于MNOs的报告(约20%)
“COVID-19影响”:
- 含义: 新冠疫情期间,全球旅行急剧减少。这直接导致了使用国际漫游服务的传统手机用户数量大幅下降。因此,移动网络运营商(MNOs)报告其漫游业务量和活跃漫游设备数有显著下滑
- 对IPX-P的影响: IPX-P的业务直接依赖于国际漫游,所以人类漫游的减少自然会对其造成冲击
“由于IoT设备占比较高”:
- 含义: 如第一点所述,IPX-P网络中除了有人类用户的漫游流量,还有大量IoT设备的漫游流量。这些IoT设备(如物流追踪、跨境车联网、工业监控等)的运行很多时候与人类的国际旅行不直接挂钩。 即使在疫情期间人类出行受限,很多自动化、工业化的IoT应用仍在继续运行
- IPX-P的客户构成: 这句话暗示,该研究分析的这家IPX-P,其客户(即使用其服务的运营商,这些运营商背后连接着最终用户和设备)中,IoT设备产生的漫游流量占了相当可观的比例