不少科技公司會為自己的服務進行壓力測試,Facebook 當然不例外。最近 Facebook 的工程師透露,他們會毫無先兆地停用數據中心,測試流量能否順利轉移,更稱將來會嘗試停用更多設施,挑戰極限。
Facebook 工程師 Jay Parikh 出席 @Scale 會議時表示,2012 年颶風桑迪吹襲美國,威脅他們其中兩個數據中心。雖然數據中心最後安然無恙,但他們事後開始思考如果數據中心損毀,會對全球服務造成甚麼影響。
他們因此組成 SWAT 小組展開 Project Storm 計劃,進行多種測試和調整流量轉移的機制,又製作多種工具,以及為每個工序制定時限,務求以最短的時間解決問題。
在 2014 年 Parikh 決定 Project Storm 可以「實戰」,圑隊遂在一個正常的工作天把一個數據中心停用,測試流量能否轉移至其他數據中心,維持 Facebook 服務正常。結果 Facebook 用戶雖然未有察覺異常,但幕後情況開始混亂,進入各個系統的流量變化十分急劇,經過多番調整流量才平穩下來。
Parikh 又稱,Project Storm 到現在仍繼續,成員更打算停用更多設施,因為他們要挑戰極限才可改善系統。
Source : IEEE