阿里宕一宕，整個互聯(lián)網(wǎng)抖三抖

原創(chuàng) 贊收藏評論

舉報 2019-03-07

掃描,分享朋友圈

懂行的看門道

不懂行的看熱鬧

【Ps：螞蟻金服，或者保險性質(zhì)公司，能整個云服務安全險嗎】

阿里云又又又又，又出故障了。3月3日，有眾多網(wǎng)友發(fā)現(xiàn)阿里云疑似出現(xiàn)大規(guī)模故障情況，使得多家互聯(lián)網(wǎng)公司網(wǎng)站和APP癱瘓。

阿里云認錯承諾盡快賠償

阿里云宕機這一次發(fā)生在午夜。3月2日23時55分左右，阿里云開始出現(xiàn)大規(guī)模故障，華北相當多的互聯(lián)網(wǎng)公司都炸了，APP、網(wǎng)站全部癱瘓，一大波程序員和運營、運維專員都從被窩爬起來去公司干活了。

58高級架構師沈劍在文章中回憶稱，這場宕機事故持續(xù)了三個小時左右，事后觀察了兩個小時。

雖然阿里云承諾盡快處理賠償事宜，但阿里云并未公開詳細的賠償細節(jié)。不過，在阿里云開發(fā)者論壇上，曾有網(wǎng)友回復稱，賠償方案通常根據(jù)包年包月預付費模式和按量付費模式等有所不同，按每臺故障時間的100倍賠償，賠償總額不超過支付的單臺云服務器費用總額。

互聯(lián)網(wǎng)廠商云服務宕機時有發(fā)生

Gartner數(shù)據(jù)表明，云計算占全球總IT支出的規(guī)模正在不斷增加。從2010年的1.99%，上升到2018年的8%，而未來幾年向云轉(zhuǎn)移將會直接或間接影響超過1萬億美元的IT支出。

這其中阿里云占據(jù)了中國市場半壁江山。市場研究機構IDC日前公布的2018年上半年中國公有云廠商市場份額數(shù)據(jù)顯示，阿里云占43%，騰訊云占11.2%，中國電信占7.4%，分列前三。

根據(jù)阿里云的官方描述，阿里云在中國公共云市場占有率超過第二名至第五名公司的總和，目前中國有40%的網(wǎng)站都在阿里云上運營，一半獨角獸公司也在使用阿里云。

無疑，阿里云在中國市場叱咤風云，然而成績越大，責任就越大，盡管多家云服務商仍在承諾99.99%的安全可靠性，但自2009年創(chuàng)立以來，阿里云就已出現(xiàn)多次故障。

2012年10月30日，由于電力故障阿里云部分服務器30余分鐘無法正常訪問，事后阿里云為此次受影響的用戶統(tǒng)一提供百倍賠償。

2013年1月18日，阿里云機房發(fā)生臨時故障，部分用戶服務器無法訪問，20分鐘修復。

2013年1月23日，阿里云發(fā)生網(wǎng)絡系統(tǒng)故障，OSS服務無法正常進行，故障持續(xù)長達6小時。

2014年11月14日，由于市政施工導致運營商光纖受損，阿里云杭州可用區(qū)D網(wǎng)絡故障，受此影響，當天不少P2P平臺網(wǎng)站無法打開。

2015年6月21日，一些使用阿里云香港數(shù)據(jù)中心的用戶反映，其服務出了問題，服務中止12小時。對此，阿里云公告稱因運營商電力問題造成香港機房故障。

2015年9月1日，多位用戶曝出，運行在阿里云上的系統(tǒng)命令及可執(zhí)行文件被刪除，嚴重影響線上服務及運維。雖然阿里云官方聲明稱，是由于云盾升級觸發(fā)bug，導致少量文件被系統(tǒng)誤刪除，并將立即啟動百倍時間賠償，但9月3日，阿里云云盾負責人吳翰清撰文稱，事件原因是“工程師粗心大意寫錯一行代碼”，并向受影響的用戶道歉。

2016年7月6日，阿里云北京機房內(nèi)網(wǎng)發(fā)生故障，導致大量互聯(lián)網(wǎng)公司業(yè)務受到影響。故障持續(xù)長達1小時。

2018年6月27日，阿里云出現(xiàn)大規(guī)模訪問異常，圖片服務等產(chǎn)品無法正常使用，官網(wǎng)賬號也無法登陸。阿里云內(nèi)部人士曾透露，此次故障并非宕機，而是賬戶登錄異常，云服務器不受影響。

事實上，不僅阿里，幾乎一年發(fā)生一次故障，僅2018年一年，全球主流云計算廠商曾發(fā)生數(shù)十起宕機事故。

2018年1月18日，谷歌云自動化失效導致宕機，宕機93分鐘；

2018年3月2日，亞馬遜AWS宕機致部分Alexa失聲，宕機數(shù)小時；

2018年5月31日，亞馬遜AWS北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問題，宕機30分鐘左右；

2018年6月17日，微軟Azure愛爾蘭數(shù)據(jù)中心宕機，宕機時間5小時以上；

2018年7月16日，亞馬遜進行“Prime Day”會員促銷活動之際，網(wǎng)站發(fā)生約一小時故障；2018年7月20日，騰訊云云硬盤故障，宕機半小時左右，導致創(chuàng)業(yè)公司數(shù)據(jù)完全丟失；

2018年9月4日，微軟云 Azure數(shù)據(jù)中心因高溫和打雷宕機，宕機時間超過24小時；

2018年11月9日，谷歌公有云下的Kubernetes服務（GKE）宕機，宕機時間接近19小時。

云服務宕機時間過長，會給企業(yè)級用戶造成巨大損失，此外更影響著千萬億萬普通用戶的網(wǎng)絡體驗，可以說每次云廠商出現(xiàn)故障（即使是很小的故障）也會在網(wǎng)絡上引起軒然大波。

有不出問題的服務?嗎？

沒有。

那為什么股票交易、銀行等都幾十年如一日的穩(wěn)定？

因為花錢多。

這是說花錢多就能不出問題嗎？

不是，是讓你感知不到問題。

花錢主要是為了做應急備案，這種冗余平時意義不大，遇到問題的時候價值很大。

阿里云是目前國內(nèi)最大的公有云服務提供商，從技術到份額都是如此，算是國內(nèi)做的最好的了。換私有云呢？就是你自己搭服務?也避免不了這個問題，甚至你自己搭服務?可能遇到的問題更多，2019年了就不要再擔心云的問題了。

由這件事引出的思考是以下幾個方面，大公司和小公司都可以參考下：

1. 99.99%的可靠性真的不能保證永遠不出事

現(xiàn)在市場上多家云廠商介紹產(chǎn)品時提出99.99%的可靠性、高可用性、安全性，通過部署反饋，故障率的確在 0.01%以下。即使這么小的概率，還是可能會發(fā)生云故障的，很多云廠商都發(fā)生過故障，其實重點是發(fā)生故障后的解決方案，重點在于容災方案的有效性。所以對于大公司來說，可以自建機房來降低故障率，但是相應的成本會增加，有利有弊吧。對于小公司，可以將云上的數(shù)據(jù)等分多地域部署，建立有效的容災方案、應對方案。也可以選擇多個云廠商，正所謂雞蛋不能放在一個籃子里，可以把不同業(yè)務模塊放在不同的云廠商服務上。

2.云需求仍在增長中

從整體來看，云計算取代舊有IT部署模式已成為產(chǎn)業(yè)共識，尤其是按需付費的公有云更是對IT成本最有效的節(jié) 省。Gartner研究報告預計，2017年到2020年公有云行業(yè)增速將維持在15%以上，2020年將達到3834億美元的規(guī)模，而云代替的總規(guī)模也將達到2160億美元。云廠商巨頭阿里云、騰訊云、UCloud等都在各個行業(yè)擴張自己的業(yè)務，利潤上也在每年上漲，對于小公司而言，更適合上云，無論是 IT基礎設施的可靠性還是減少成本來看。

3.增加自身IT實力，面對不可靠性

以上這句話不僅是針對云廠商，也是針對小公司，道理我們應該都明白。

掃描,分享朋友圈