阿里宕一宕,整個互聯網抖三抖
懂行的看門道
不懂行的看熱鬧
【Ps:螞蟻金服,或者保險性質公司,能整個云服務安全險嗎】
阿里云又又又又,又出故障了。3月3日,有眾多網友發現阿里云疑似出現大規模故障情況,使得多家互聯網公司網站和APP癱瘓。
阿里云認錯承諾盡快賠償
阿里云宕機這一次發生在午夜。3月2日23時55分左右,阿里云開始出現大規模故障,華北相當多的互聯網公司都炸了,APP、網站全部癱瘓,一大波程序員和運營、運維專員都從被窩爬起來去公司干活了。
58高級架構師沈劍在文章中回憶稱,這場宕機事故持續了三個小時左右,事后觀察了兩個小時。
雖然阿里云承諾盡快處理賠償事宜,但阿里云并未公開詳細的賠償細節。不過,在阿里云開發者論壇上,曾有網友回復稱,賠償方案通常根據包年包月預付費模式和按量付費模式等有所不同,按每臺故障時間的100倍賠償,賠償總額不超過支付的單臺云服務器費用總額。
互聯網廠商云服務宕機時有發生
Gartner數據表明,云計算占全球總IT支出的規模正在不斷增加。從2010年的1.99%,上升到2018年的8%,而未來幾年向云轉移將會直接或間接影響超過1萬億美元的IT支出。
這其中阿里云占據了中國市場半壁江山。市場研究機構IDC日前公布的2018年上半年中國公有云廠商市場份額數據顯示,阿里云占43%,騰訊云占11.2%,中國電信占7.4%,分列前三。
根據阿里云的官方描述,阿里云在中國公共云市場占有率超過第二名至第五名公司的總和,目前中國有40%的網站都在阿里云上運營,一半獨角獸公司也在使用阿里云。
無疑,阿里云在中國市場叱咤風云,然而成績越大,責任就越大,盡管多家云服務商仍在承諾99.99%的安全可靠性,但自2009年創立以來,阿里云就已出現多次故障。
2012年10月30日,由于電力故障阿里云部分服務器30余分鐘無法正常訪問,事后阿里云為此次受影響的用戶統一提供百倍賠償。
2013年1月18日,阿里云機房發生臨時故障,部分用戶服務器無法訪問,20分鐘修復。
2013年1月23日,阿里云發生網絡系統故障,OSS服務無法正常進行,故障持續長達6小時。
2014年11月14日,由于市政施工導致運營商光纖受損,阿里云杭州可用區D網絡故障,受此影響,當天不少P2P平臺網站無法打開。
2015年6月21日,一些使用阿里云香港數據中心的用戶反映,其服務出了問題,服務中止12小時。對此,阿里云公告稱因運營商電力問題造成香港機房故障。
2015年9月1日,多位用戶曝出,運行在阿里云上的系統命令及可執行文件被刪除,嚴重影響線上服務及運維。雖然阿里云官方聲明稱,是由于云盾升級觸發bug,導致少量文件被系統誤刪除,并將立即啟動百倍時間賠償,但9月3日,阿里云云盾負責人吳翰清撰文稱,事件原因是“工程師粗心大意寫錯一行代碼”,并向受影響的用戶道歉。
2016年7月6日,阿里云北京機房內網發生故障,導致大量互聯網公司業務受到影響。故障持續長達1小時。
2018年6月27日,阿里云出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。阿里云內部人士曾透露,此次故障并非宕機,而是賬戶登錄異常,云服務器不受影響。
事實上,不僅阿里,幾乎一年發生一次故障,僅2018年一年,全球主流云計算廠商曾發生數十起宕機事故。
2018年1月18日,谷歌云自動化失效導致宕機,宕機93分鐘;
2018年3月2日,亞馬遜AWS宕機致部分Alexa失聲,宕機數小時;
2018年5月31日,亞馬遜AWS北弗吉尼亞地區數據中心出現硬件問題,宕機30分鐘左右;
2018年6月17日,微軟Azure愛爾蘭數據中心宕機,宕機時間5小時以上;
2018年7月16日,亞馬遜進行“Prime Day”會員促銷活動之際,網站發生約一小時故障;2018年7月20日,騰訊云云硬盤故障,宕機半小時左右,導致創業公司數據完全丟失;
2018年9月4日,微軟云 Azure數據中心因高溫和打雷宕機,宕機時間超過24小時;
2018年11月9日,谷歌公有云下的Kubernetes服務(GKE)宕機,宕機時間接近19小時。
云服務宕機時間過長,會給企業級用戶造成巨大損失,此外更影響著千萬億萬普通用戶的網絡體驗,可以說每次云廠商出現故障(即使是很小的故障)也會在網絡上引起軒然大波。
有不出問題的服務?嗎?
沒有。
那為什么股票交易、銀行等都幾十年如一日的穩定?
因為花錢多。
這是說花錢多就能不出問題嗎?
不是,是讓你感知不到問題。
花錢主要是為了做應急備案,這種冗余平時意義不大,遇到問題的時候價值很大。
阿里云是目前國內最大的公有云服務提供商,從技術到份額都是如此,算是國內做的最好的了。換私有云呢? 就是你自己搭服務?也避免不了這個問題,甚至你自己搭服務?可能遇到的問題更多,2019年了就不要再擔心云 的問題了。
由這件事引出的思考是以下幾個方面,大公司和小公司都可以參考下:
1. 99.99%的可靠性真的不能保證永遠不出事
現在市場上多家云廠商介紹產品時提出99.99%的可靠性、高可用性、安全性,通過部署反饋,故障率的確在 0.01%以下。 即使這么小的概率,還是可能會發生云故障的,很多云廠商都發生過故障,其實重點是發生故障 后的解決方案,重點在于容災方案的有效性。 所以對于大公司來說,可以自建機房來降低故障率,但是相應的成本會增加,有利有弊吧。對于小公司,可以 將云上的數據等分多地域部署,建立有效的容災方案、應對方案。也可以選擇多個云廠商,正所謂雞蛋不能放 在一個籃子里,可以把不同業務模塊放在不同的云廠商服務上。
2.云需求仍在增長中
從整體來看,云計算取代舊有IT部署模式已成為產業共識,尤其是按需付費的公有云更是對IT成本最有效的節 省。Gartner研究報告預計,2017年到2020年公有云行業增速將維持在15%以上,2020年將達到3834億美元 的規模,而云代替的總規模也將達到2160億美元。 云廠商巨頭阿里云、騰訊云、UCloud等都在各個行業擴張自己的業務,利潤上也在每年上漲,對于小公司而 言,更適合上云,無論是 IT基礎設施的可靠性還是減少成本來看 。
3.增加自身IT實力 ,面對不可靠性
以上這句話不僅是針對云廠商,也是針對小公司,道理我們應該都明白 。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)