谷歌公布上周发生的大规模中断原因:新旧系统迁移出现BUG导致
谷歌上周在全球范围内出现大规模的服务中断,任何需要登录谷歌账号的服务均无法登录导致很多服务无法使用。
在简短报告中谷歌表示此次问题在于身份验证系统的配额故障,导致无法自动对存储配额进行扩容影响系统运行。
现在谷歌已经公布详细的事故调查报告,报告显示此次宕机的根本原因是谷歌身份验证系统新旧迁移导致的问题。
谷歌身份验证系统是谷歌最核心的系统之一,而全球用户的数据账户都存储在这个系统里,用于统一调用和校验。
谷歌在十月份对该系统进行升级和迁移,新注册的账号默认情况下都已经存储在谷歌新版本的身份验证系统里面。
但旧系统暂时还被保留下来并且还在使用,由于有些意外问题导致旧系统的配额系统认为旧系统已经没人在使用。
然后配额系统自动将旧系统的磁盘配额缩减导致空间不足以支撑运行,最终直接让数据存储数据库发生大量错误。
尽管谷歌为防止出现这种问题已经配置安全检查,但安全检查未覆盖旧版本的单个服务的负载报告导致没有报错。
值得注意的是此次重大故障还影响谷歌工程师的登录,这导致工程师无法使用内部工具进行中断调查和恢复工作。
作为补救措施接下来谷歌将对配额管理自动化系统进行优化,防止自动化系统快速进行全局配置调整影响到服务。
同时将对内部工具进行改进,防止下次再出现类似问题后,谷歌工程师们也无法进行登录导致无法进行错误恢复。
谷歌表示对所有受影响的用户致歉,接下来还会进行更彻底的调查,并根据调查结果对谷歌工程进行调整和优化。