微软公布Microsoft Teams全球中断的原因 ECS配置出错导致级联故障
上周Microsoft Teams在全球范围内发生中断,这影响大量企业的日常办公,但实际上受影响的也不只是Microsoft Teams,包括Exchange Online、Microsoft 365管理中心、多个服务中的Microsoft Word、Microsoft Graph API、SharePoint Online、Windows 365等都或多或少的受到牵连。
其中受影响最严重的就是Microsoft Teams,包括桌面版、Web版和App都无法正常使用。遥测表明至少30万个Teams呼叫受影响,故障发生时是亚太地区的工作时间,包括中国、韩国、日本、东南亚多国的企业都受到严重影响。
微软使用Enterprise Configuration Service企业配置服务部署内容,但该服务中存在代码缺陷,该缺陷影响了与利用ECS服务的向后兼容性,最终结果是所有利用ECS服务的产品都下发了不正确的配置。
下游产品正常情况下获取到HTTP 200状态码表明信息拉取成功,但实际上拉取的信息是个包含格式错误的JSON对象。
受影响的产品的受影响程度取决于产品对ECS服务的利用方式,有的产品是直接崩溃例如Teams,有的产品是部分功能不可用。
微软表示鉴于此事件造成的影响,该公司正在努力提高Microsoft Teams的弹性,以便在未来ECS故障时能够自动恢复到缓存的版本。
另外微软将开发额外的隔离措施以限制ECS服务产生故障时造成的影响,确保未来能够更好的快速检测并识别到ECS产生的低级故障(对ECS来说这个代码缺陷实际影响有限,但没想到影响那么多产品)