从阿里云香港机房挂掉看公有云透明度:及时更新状态有这么难?
更新内容:阿里云发布香港Region可用区C服务中断事件的说明
昨天中午12时左右 ,阿里云香港区域挂掉 , 大量使用阿里云香港C区云服务器、轻量机、数据库的网站宕机。
根据阿里云发布的公告,问题发生原因在于阿里云租用的香港电讯盈科机房制冷设备故障导致服务器也异常。
夏季的时候谷歌云和甲骨文在欧洲的机房也因为温度太高而宕机,这种情况对于数据中心来说其实并不罕见。
问题在于可用区挂掉几个小时后阿里云竟然都没更新状态页,如果检查状态页发现香港所有区域都是绿色的。
<现在上面还提示近期无事件>
使用云服务器的用户多多少少都会遇到各种不可用状态,遇到这种情况第一时间就是检查状态页先看看情况。
如果是服务器本身出现问题用户层面再怎么折腾也没用,或者说如果是服务器本身故障运维人员至少能甩锅。
不然生产环境挂掉老板大发雷霆催着运维修复的时候这运维人员不冤枉吗?所以首先起码得更新监控状态吧。
昨天阿里云香港可用区C挂掉后,至少在 5 个小时内阿里云都没有更新状态监控, 状态页还保持着绿色状态。
显然这种大规模挂掉想要藏着掖着是没用的,至于为什么不及时更改状态页我们只能猜测这是为了声誉考虑。
估计想着保住声誉先更新状态悄咪咪修复后再发个恢复公告,大不了就说是线路异常导致部分区域无法访问。
按云计算行业惯例如果出现意外故障是要向用户补偿的,补偿措施包括代金券、赠送时长或者加赠产品之类。
然而对客户来说这种补偿本身没有任何意义,因为网站或应用程序无法访问后造成的损失可能是难以估量的。
挂掉10小时哪怕按照10倍补偿100个小时也就是把你的服务器延长4.17天,这与损失相比简直是不值一提的。
所以相比赔偿云服务的透明度才是最重要的,最起码要在挂掉的时候赶紧通知让客户能想办法迁移降低损失。
参考之前谷歌云和甲骨文,即便是机房过热服务器集群全部下线,时候谷歌和甲骨文也公布详细的调查结果。
比如谷歌在状态页里按时间更新多条状态,说明故障原因、谷歌工程师采取的措施、影响范围和恢复状态等。
阿里云这波故障在状态和公告方面只能说是没眼看,如果阿里云想要解决用户的担忧最好公布详细调查报告。
让用户知道自己的服务器为什么在挂掉好几个小时后仍然无法恢复,以及初步恢复后仍然间歇性中断要重启。
如果不能保持良好的透明度那意味着服务是不可信的,长此以往用户肯定会用脚投票换成其他平台的云服务。