CLOUDFLARE公布长时间故障原因:运维不慎将核心设施的网线拔了

全球知名内容分发提供商CLOUDFLARE昨天晚间发生大规模故障 , 故障主要影响用户使用控制台和相关API服务。

不过此次故障并不会影响CDN内容分发、客户网站的访问、DDoS防护等等 , 因此总体来说也算是不幸中的万幸。

经过挺长时间的修复CLOUDFLARE终于恢复控制台和相关接口的访问 ,同时该公司也公布此次意外故障的原因。

CLOUDFLARE公布长时间故障原因:运维不慎将核心设施的网线拔了

顶级公司有时候也会犯迷糊:

该公司公布此次故障的原因后引起不少开发者以及管理员的热议,因为这次故障的源头只能说是非常低级的错误。

原本运维工程师们已经准备好就某台冗余核心服务器退役,这台服务器属于备用的因此正常情况下拆掉没有问题。

但是这台冗余服务器机架还有个非常重要的配线架,这个配线架连接多台核心服务器设施为服务器提供数据传输。

在拆除冗余服务器机架的同时运维工程师不慎将这个配线架也拆除,运维人员估计将配线架当成也要退役的组件。

配线架被拆除后多台核心服务器立即掉线无法连接网络,随后前台用户尝试登录控制台时发生错误始终无法操作。

有备份恢复工具但恢复时间太长:

针对这类错误实际上该公司已经有临时应急预案,即有专门的备份工具可以快速恢复服务让前台用户恢复访问等。

但在尝试使用这个备份工具进行恢复时运维工程师发现恢复时间太长,于是他们决定还是直接去重新安装配线架。

配线架有相当多的网线因此即便将其重新安装也需要较长时间,不过与使用备份恢复工具相比相对来说还更快些。

CLOUDFLARE 首席执行官表示正在就此问题进行详细的内部调查 ,同时他表示这种问题以后永远不会再次发生。

本文来源 蓝点网,由 山外的鸭子哥 整理编辑,其版权均为 蓝点网 所有,文章内容系作者个人观点,不代表 蓝点网 对观点赞同或支持。如需转载,请注明文章来源。
BabyHorse知不道ImBrighter
扫码关注蓝点网微信公众号

评论:

3 条评论,访客:3 条,站长:0 条
  1. 牛顿
    牛顿发布于: 
    Google Chrome 81.0.4044.113 Google Chrome 81.0.4044.113 Windows 10 64位版 Windows 10 64位版

    核心业务服务器居然不做双活?

  2. 小吴同学
    小吴同学发布于: 
    Google Chrome 81.0.4044.113 Google Chrome 81.0.4044.113 Windows 10 64位版 Windows 10 64位版

    哦豁,社会上又要多几个无业游民咯。

  3. walkingdead
    walkingdead发布于: 
    Google Chrome 81.0.4044.113 Google Chrome 81.0.4044.113 Windows 10 64位版 Windows 10 64位版

    卧槽,一个配线架引发的

发表评论