谷歌全球大规模中断事故调查 初步判定是自动配额系统故障导致的
前天晚间谷歌多个服务在全球范围内发生中断,尽管刚开始有人怀疑是黑客攻击导致的但很快这种谣言就被否定。
原因在于谷歌采用的分布式系统不太可能因为攻击导致全球范围中断,因此看起来更像是谷歌内部出现某种故障。
事实上也确实如此,谷歌在经过调查后初步判定导致此次全球大范围宕机的原因是谷歌使用的自动配额系统异常。
异常导致身份验证系统无法正常的运行,进而导致所有需要登录谷歌账号才能使用的谷歌在线服务全部出现宕机。
谷歌云计算官方账号在推特上简短的表示 Internal storage quota issue (内部存储故障) ,这被认为是磁盘满了。
但其实这并非磁盘满了导致验证服务无法运作,当然如果磁盘没有足够空间,确实会导致某些服务无法正常运行。
准确的说此次故障是因为谷歌用于身份验证的系统使用的自动配额管理系统异常,没有按设计逻辑进行容量扩充。
而这个身份验证系统是谷歌用于所有用户账号的验证系统属于谷歌的核心系统,故障后所有用户均无法验证身份。
值得注意的是此次故障还存在死循环问题,即谷歌工程师进行任何维护操作也需要验证自己的身份才能登录系统。
而验证系统也负责验证谷歌工程师的账号,这导致谷歌许多内部工程师和使用的工具均受影响无法正常登录系统。
进而让系统中断时间被延长影响更多用户的使用,从故障发生到初步解决持续时间为五十分钟,之后才慢慢恢复。
谷歌表示以上为此次宕机事故的初步调查报告,后续会发布更详细的调查报告以向外界透露自动配额管理的问题。
通常情况下针对此类问题谷歌都会发布详细报告甚至相关代码进行分析,有兴趣的IT业工作者可以关注后续报告。