close
企業趨勢

AWS 公開服務故障原因:員工除錯時輸入錯誤指令

日前 AWS 服務故障,影響眾多網站。AWS 現公開故障原因,表示員工在除錯時輸入錯誤指令,移除了較正常數目為多的伺服器,從而影響 S3 兩個子系統的運作。

 

 

兩個 S3 子系統需重新啟動

AWS 北維珍尼亞區的數據中心(US-EAST-1)日前發生故障,影響眾多網站,現公開更多細節。他們表示,S3 團隊日前發現支付系統的運作較慢,於是輸入指令,打算移除 S3 子系統中用於處理支付的少量伺服器,但其中一個指令有誤,導致更多的伺服器也被移除。

該些伺服器是用作支援另外兩個 S3 子系統的運作。一個是索引子系統 (Index subsystem),用於管理 S3 物件的元資料(metadata)和地方資料,需要處理所有 GET、LIST、PUT 和 DELETE 請求;另一個是存放子系統(Placement subsystem) ,負責管理新儲存的分布,需要索引子系統方可正常運作,當要處理 PUT 請求時便會用到。

由於為數不少的容量(capacity)被移除,子系統需要重新啟動,過程中 S3 無法處理服務請求。因此其他依賴 S3 運作的儲存服務,如 S3 控制台、Amazon EC2 建立新執行個體(instance)、Amazon EBS 和 Amazon Lambda 都無法運作。

AWS 稱,由於兩個子系統已經多年未有完全重新啟動,加上 S3 近年迅速發展,重新啟動和檢查數據的時間較預期中久。

他們又指之前的工具把容量移除得太快,現在他們已改良工具,減慢移除速度,並確保子系統不會有過少的容量,避免相同事件發生。他們亦就事件致歉,將汲取教訓提升可靠度。

Source : AWS

 

Tags : Amazon Web Servicesaws
Dennis Ma

The author Dennis Ma

為香港讀者分享各種 IT 新聞及趨勢,如企業動態、保安消息(勒索軟件、程式漏洞等)、未來科技(AR、VR、3D打印等。)、電子商貿;亦專門分享 SEO、網頁設計、社交平台推廣等心得。