CLOUDFLARE公布长时间故障原因:运维不慎将核心设施的网线拔了
全球知名内容分发提供商CLOUDFLARE昨天晚间发生大规模故障 , 故障主要影响用户使用控制台和相关API服务。
不过此次故障并不会影响CDN内容分发、客户网站的访问、DDoS防护等等 , 因此总体来说也算是不幸中的万幸。
经过挺长时间的修复CLOUDFLARE终于恢复控制台和相关接口的访问 ,同时该公司也公布此次意外故障的原因。
该公司公布此次故障的原因后引起不少开发者以及管理员的热议,因为这次故障的源头只能说是非常低级的错误。
原本运维工程师们已经准备好就某台冗余核心服务器退役,这台服务器属于备用的因此正常情况下拆掉没有问题。
但是这台冗余服务器机架还有个非常重要的配线架,这个配线架连接多台核心服务器设施为服务器提供数据传输。
在拆除冗余服务器机架的同时运维工程师不慎将这个配线架也拆除,运维人员估计将配线架当成也要退役的组件。
配线架被拆除后多台核心服务器立即掉线无法连接网络,随后前台用户尝试登录控制台时发生错误始终无法操作。
针对这类错误实际上该公司已经有临时应急预案,即有专门的备份工具可以快速恢复服务让前台用户恢复访问等。
但在尝试使用这个备份工具进行恢复时运维工程师发现恢复时间太长,于是他们决定还是直接去重新安装配线架。
配线架有相当多的网线因此即便将其重新安装也需要较长时间,不过与使用备份恢复工具相比相对来说还更快些。
CLOUDFLARE 首席执行官表示正在就此问题进行详细的内部调查 ,同时他表示这种问题以后永远不会再次发生。