英国高温让谷歌云和甲骨文的数据中心瘫痪 冷却系统超负荷运行后罢工
据外媒报道因全球极端的天气,英国出现逼近 40° 的高温 , 这已经打破英国历史上的温度记录成为最高温度。
如此高温竟然让具有工业冷却系统的数据中心也出现罢工,谷歌云和甲骨文云都因为高温几乎同时出现故障。
其中谷歌云数据中心比较惨是在极端高温后冷却系统直接挂掉,于是大量服务器离线影响相当多的客户访问。
甲骨文情况稍微好些,甲骨文是监测到服务器温度过高做好准备后切断电源,因为是有预期的所以影响小些。
从全球天气来看北半球的极端高温影响的区域非常广,估计近期数据中心热到罢工的消息应该还会出现更多。
根据谷歌提供的事件日志,Google Cloud 西欧 2 数据中心出现冷却故障,随后受影响的机房里服务器离线。
为防止冷却系统长时间停机后导致更多服务器损坏,谷歌工程团队主动切断部分服务器的电源着手恢复数据。
由于数据都有冗余备份因此客户的数据不受影响,谷歌则通过异地灾备系统恢复数据并将受影响的实例恢复。
同时在发生故障后由于硬件资源问题,谷歌也不得不将部分永久磁盘设备以单冗余模式运行以尽快恢复使用。
另外谷歌也临时将伦敦数据中心的抢占式实例关闭 ,最后在中断超过10个小时后,谷歌云西欧2区重新上线。
根据甲骨文提供的事件日志,甲骨文位于英国南部的也就是伦敦数据中心里出现部分服务器温度逼近临界值。
为防止不受控制的硬件故障甲骨文工程团队切断部分基础设施的电源,然后工程团队希望通过冗余设备替换。
这期间包括甲骨文云服务器、网络连接、云基础设施存储卷、对象存储以及甲骨文集成等诸多服务全部离线。
中断5小时(原预计是1~2小时)后冷却系统维修顺利数据中心温度回到正常水平,工程团队开始恢复各项服务。
最后在中断11小时后所有客户的数据和资源重新联网上线,没有自动开机的实例也由甲骨文工程师手动开机。