• AWS 因 IDC 断电导致「不走运的客户」实例和卷化为乌有
  • 发布于 2个月前
  • 112 热度
    0 评论
  • 汤彬
  • 3 粉丝 11 篇博客
  •   
周末业内一位朋友微信询问,AWS 是否出现大规模故障 ?

经查询,当时未发现任何的故障信息和用户反馈。今日谜底揭晓,周末,一次停电导致AWS的其中一个数据中心内部的硬件遭殃,结果部分客户数据因此丢失。

事后分析报告:对于不走运的客户来说,停电导致实例和卷化为乌有。

消息源来自IT外媒The Register,据其获悉,电源停掉、备用发电机随后又出现故障时,一些虚拟服务器实例如同人间蒸发,一些云托管的卷被破坏,不得不尽可能靠备份来恢复。

一名读者向其爆料,周六早上,AWS在US-East-1地区遭遇故障。

这位读者称,他们在AWS的云托管弹性块存储(EBS)中有超过1TB的数据,这些数据在故障期间销声匿迹:他们被告知“与您的EBS卷有关的底层硬件已出现故障,与该卷有关的数据恢复不了。”

该读者称,靠大约8小时之前创建的EBS快照手动恢复的数据。若没有这个备份,他们可能无法恢复任何丢失的信息:亚马逊的工程师能够使绝大多数宕机的系统起死回生,不过并非每个存储卷都在硬件崩溃后幸免于难。

AWS的工作人员告诉数据存储在宕机存储系统上的不走运的客户,尽管试图恢复丢失的数据,但是部分数据已被永久打乱:“少数卷托管在受停电不利影响的硬件上。然而,由于停电事件造成的损害,支撑这些卷的EBS服务器没有恢复过来。”

“在进一步尝试恢复这些卷之后,它们被查明无法恢复。”

与此同时,一名客户兼技术顾问Andy Hunt不仅在Twitter上吐槽他们的数据在停电时丢失殆尽,还声称AWS没有迅速向用户告知故障的根源:“AWS遇到了电源故障,它的备用发电机出了故障,结果EBS服务器因此崩溃,因此我们的所有数据一并遭殃。然后AWS花了四天的时间才查清楚这起事件,并告诉我们详情。”

“提醒:云只是位于Reston的一台计算机,电源供应很糟糕。”

“受到损害”

虽然有关这次停机的一些细节在AWS的状态网页上已公布,尽管并非一目了然,但已看到了一系列更详细的通知,这些通知发给了客户以解释这起故障。

就在太平洋夏令时(PDT)当天11:00前夕,AWS注意到“US-East-1地区中六个可用区之一的十个数据中心中有一个遇到了市电故障。备用发电机立即上线,但由于我们仍在调查的一些原因,06:00前后开始马上出现故障。”

AWS继续说:“这导致到06:10该可用区中所有实例中的7.5%出现故障。在过去几个小时里,我们已恢复了大部分实例,但该可用区中仍有1.5%的实例仍有待恢复。EBS也存在类似的影响,我们在继续恢复EBS里面的卷。该可用区中启动的新实例继续正常运行,毫无问题。”

大约几个小时后的13:30,AWS澄清并详述了说明,内容如下:

在04:33,US-East-1区域中六个可用区之一中的十个数据中心之一出现了市电故障。我们的备用发电机立即上线,但在06:00左右开始出现故障。这影响了可用区中7.5%的EC2实例和EBS卷。 

到了07:45,受影响的数据中心完全恢复供电。到了10:45,99%的实例都已恢复,而到12:30,只有0.5%的实例仍然受损。自影响开始出现以来,我们一直致力于恢复剩余的实例和卷。少量剩余的实例和卷托管在受到断电不利影响的硬件上。我们继续努力恢复所有受影响的实例和卷,会通过Personal Health仪表板与剩余的受影响客户进行沟通。想立即恢复,我们建议尽可能更换任何剩余的受影响实例或卷。

所以实际上,据AWS声称,周六早上(美国西海岸时间),一个AWS数据中心断电,然后一个半小时后,备用发电机又出现故障,仅十分之一的EC2虚拟机和该可用区中的EBS卷因此瘫痪。

几个小时过后,99.5%的受影响系统已恢复;在那些仍“受到损害”的系统中,一些不可避免,迫使用户取出备份——假设他们之前保存了备份。
用户评论