核心提示: 上周二,美國弗吉尼亞州AWS數據中心的一個人為錯誤導致了大規(guī)模的服務中斷,這是4年以來遭遇的最大一次公有云中斷。不斷是否是AWS的問題,考慮到AWS有龐大的客戶群,以及使用AWS作為平臺的服務提供商為數眾多,所以更加放大了這次服務中斷的影響。
所有云都停機了。但是當你主導市場的時候,你會受到更多的關注。
上周二,美國弗吉尼亞州AWS數據中心的一個人為錯誤導致了大規(guī)模的服務中斷,這是4年以來遭遇的最大一次公有云中斷。不斷是否是AWS的問題,考慮到AWS有龐大的客戶群,以及使用AWS作為平臺的服務提供商為數眾多,所以更加放大了這次服務中斷的影響。
這樣的情況在AWS早期開拓市場的時候并不少見。每年發(fā)生兩次或者三次大事件是常態(tài),但是現在情況不一樣了。
盡管如此,考慮到最近的故障以及它遭受的審查風暴,我們決定對過去進行一次總結,看看哪些事件是AWS最不堪回首的。
風暴席卷:2016年6月
2016年6月悉尼遭遇風暴,AWS在該地區(qū)的設施停電,很多EC2實例以及為一些知名公司托管關鍵負載的EBS卷接連出現故障。在那個周末,澳大利亞AWS可用區(qū)域的網站和在線服務中斷了近10個小時,使得從銀行服務到披薩送貨都出現了問題。
DNS拒絕:2014年11月
2014年11月AWS的CloudFront DNS服務出現近2個小時的中斷。一些網站和云服務出現脫機,因為在故障期間內容交付網絡無法滿足DNS請求。
黑色星期五:2013年9月
2013年9月13日黑色星期五發(fā)生的這次故障是由負載均衡問題所導致的,部分地區(qū)客戶受到影響。Amaozn解決了復雜均衡的接入問題,并增加了配置時間以防止后續(xù)這種問題的出現。雖然這次中斷只持續(xù)了大約2個小時且只影響到弗吉尼亞州的一個可用區(qū)域,但對Amazon來說,卻是一個要制定備份計劃的重要提醒。
圣誕節(jié):2012年12月
AWS在2012年的圣誕前夜遭遇服務中斷,這使得Netflix無法在這個在線電影交付最繁忙的時候正常運轉。這家知名客戶因為這次不幸指責Amazon,成為這次事件的一個持久回憶。
背靠背:2012年6月
2012年6月,Amazon位于弗吉尼亞的數據中心出現服務中斷,導致運營停止約6個小時,影響到幾十家客戶。10月22日,弗吉尼亞數據中心的另一個問題導致很多客戶的網站無法正常運行。兩次相繼發(fā)生的中斷事件使得很多企業(yè)領導者對采用云感到不安,當時云這個理念剛剛在企業(yè)中開始被接受。
黑暗后的沉默:2011年4月
這是2011年的首次中斷事件,引起了人們對云有時候很脆弱的關注,并且說明,隨著事情的進展溝通是最關鍵的。Amazon最大的一些客戶甚至離線數天時間。
當客戶正在努力恢復運行的時候,云計算巨頭Amazon卻一直沉默。一個星期過去了,Amazon才發(fā)布了關于這次事故一個非常技術的、冗長的文章。Amazon歸咎于“重新鏡像風暴”,并向???????戶道歉。這次事件被很多人看作是如果不處理服務中斷事故會受到怎樣的教訓。