网络故障透露中国互联网接入现状

原文:Internet Outage Reveals Reach of China’s Connectivity

太平洋标准时间5月13日中午12点30分(北京时间5月14日凌晨3:30),中国电信经历了持续近5个小时的重大故障,后续效应持续了几个小时。正如在美国对贸易政策的紧张局势加剧之时所做的那样,可能很容易让人联想到对潜在地缘政治动机的猜测。然而,这种猜测忽略了许多人都不知道的关于中国和互联网的一些重要的基本现实。这次中断是深入了解中国互联网连接状况的绝佳机会。

我们所见的

昨天,从下午早些时候开始,我们的全球优势点开始检测到中国电信骨干网上进出中国的互联网流量出现大量数据包丢失。数据包丢失持续数小时,主要影响中国大陆的网络基础设施,但也影响中国电信在新加坡的网络和美国的多个接入点,包括洛杉矶。

在长时间中断的过程中,通过受影响的基础设施的任何流量都被丢弃,这意味着中国境内外的一些互联网用户将遇到连接到各种网站和应用程序的服务中断。中国境内的用户试图访问中国以外的网站会受到影响,同时中国以外的用户尝试连接到中国境内的网站也是如此。

这些不仅仅影响西方网站和服务,许多美国主要网站,如Apple,Amazon,Microsoft,Slack,Workday,SAP等在中断期间都受到了影响。下图显示了中断的附带损害的部分范围。

Figure-1-China-Telecom-outage

图1:受中国电信中断影响的基于云的服务。

在最高峰时,我们检测到因中国电信全球骨干网络状况而中断的100多项服务。我们还检测到中断对地理影响的变化,如下面的两个热图所示,在中断期间的不同点捕获。

Figure-2-Geographic-scope-China-Telecom-outage

图2:中国电信中断的地理范围在中断期间有所不同。

最严重的中断期是在太平洋标准时间12:30开始后的前三个小时内发生的,但许多服务在数小时后继续受到影响。一项特定服务的中断的扩展性质可以在下面的图3中看到。Amazon Web Services的数据包丢失从太平洋标准时间12:30开始飙升,持续约5个小时。下面的路径可视化显示了在17:30-17:45(太平洋标准时间)之间的网络状况,此时前往AWS的流量继续被中国电信路由器丢弃。

Figure-3-AWS-services-impacted

图3:中国电信用户在12:30-17:45(太平洋标准时间)之间受影响的AWS服务。

受中断影响的另一家美国服务是Cloudflare的托管DNS服务。例如,WeWork的域名由Cloudflare托管,在下面的路径可视化中,您可以看到尝试访问Cloudflare的DNS服务器的流量(由最右边的绿色节点表示,IP地址为173.245.58.135,这是地理位置位于美国的路由前缀173.245.58.0/24的一部分。)被中国境内的中国电信路由器丢弃。结果是来自中国境内的许多用户无法访问WeWork网站。

Figure-4-Cloudflare-DNS-resolution

图4:Cloudflare的托管DNS服务受到影响,阻止了WeWork域的DNS解析。

中国是深度互联的

中断现已解决,但在ThousandEyes,我们相信每次互联网停运都是一次学习机会,这也不例外。这里有两个要点可能一般不太清楚。

首先,大多数人认为“长城防火墙”是一套统一管理的规则,使中国用户与全球其他地方隔离。他们想象一方面是中国庞大的用户和为他们提供服务的网络基础设施,另一方面,互联网的其余部分。但现实情况是,中国与外部网站和服务的联系非常紧密──至少是那些服务于商业利益的网站和服务。

中国互联网服务提供商(ISP)的标准操作程序允许访问大多数西方基于云的业务服务。通过允许国内和外国公司更有效地开展业务,从中国境内进入这些类型的网站符合中国的利益。通俗地说,您可以从中国境内访问许多美国服务。

其次,大多数人也可能没有意识到中国的互联网服务提供商将拥有全球性的存在。但是,如上图2所示,中国电信控制和管理的基础设施范围远远超出了中国的地理边界。该提供商还维护全球互联,与全球许多地方的服务提供商保持联系。

那些回忆起去年影响谷歌服务的BGP路由泄漏的读者,可能还记得中国电信在那一集中的客串。中国电信与负责尼日利亚工厂路线泄漏的ISP(MainOne)保持联系。中国电信未能过滤通往谷歌的广告路线(而是将其传播给其他同行),导致一些用户试图访问谷歌的服务中断。

互联网无处不在

无论互联网在哪里,无论是在一个自由的民主国家,还是在高度国家控制的环境中,它都是根本无法预测的。这是由于它被构建为自愿互连但单独管理的网络,基础技术的自动化性质(例如BGP路由)以及完全缺乏集中式运营管理的的集合。

当互联网的某个部分出现糟糕的事情时,尤其是在像中国这样的后续国家,互联网的其他部分会产生连锁反应。在这种情况下,超过一百种商业服务受到影响,毫无疑问,因此产生了生产力和收入损失。

当你考虑互联网是多么不可预测的时候,今天的企业依赖互联网的程度相当惊人。这是最终的不受控制的环境。这就引出了一个问题,如果你无法直接控制它,你是否拥有尽可能最好地管理它的可见性?

现在关于那个猜测

因为ThousandEyes本质上是(不断变化的)互联网的实时地图,我们能够跟踪互联网中断及其全球影响,无论是在中国,俄罗斯还是其他地方,但我们不能也不会推测这种网络事件的地缘政治和可能的动机(如果有的话)。

然而,值得注意的是,中国的互联网服务提供商非常精通对进出网络的流量实施细粒度控制。如果有意展示禁用美国应用程序和服务的能力,那么从技术角度来看,它肯定没有得到很明确的体现。毕竟,被破坏的网站和服务是不分青红皂白的,影响到中国境内外的人。

立即获得可见性

主要的互联网中断是企业团队关注企业所依赖的大量外部依赖关系的警钟。如果你无法深入了解四面墙以外的应用和网络层条件,那么当你的云和互联网生态系统发生不可预测的事情时,您将陷入困境。

View on GitHub